"景先生毕设|www.jxszl.com

一带一路恐怖袭击语料库新闻标题与媒体机构的特征统计与分析

2021-03-30 13:30编辑: www.jxszl.com景先生毕设
由于复杂的历史和当前国际因素,“一带一路”沿线各国和地区一直以来都是恐怖袭击事件猖獗、恐怖活动高发的地带,是受恐怖主义阴影笼罩的重灾区。本研究利用马里兰大学建立的全球恐怖主义研究数据库,构建了2001年至2015年“一带一路”沿线地域恐怖袭击语料库。并同时利用改进的LCS及编辑距离两种算法,对恐怖袭击语料库库中恐怖袭击事件新闻的标题进行相似度的计算,同时利用共现分析方法、社会网络分析方法以及地理可视化的方法,进一步探究全球范围内媒体机构针对恐怖袭击事件进行报道时的模仿和照搬现象。关键字一带一路;恐怖袭击;新闻标题;媒体The statistics and analysis for the characteristics of news title and media organizations which based on terrorism corpus of B&RStudent majoring in Information Management and Information System LIU Rui-lunTutor WANG Dong-boAbstract: Because of the complex historical and practical reasons, the areas along the Belt and Road have been witnessing high frequency of terrorist activity and attacks in a long time. In this study, the terrorism corpus of the Belt and Road was built which based on Global Terrorism Database. Besides, the similarity indexes of the news title which about terrorism are counted by using Edit Distance Algorithm and LCS Algorithm. Furthermore, in order to find out the imitated or copied phenomenon between w *51今日免费论文网|www.jxszl.com +Q: ^351916072
orldwide different media organizations, the methods of co-occurrence analysis, social network analysis and geo-visualization are used.一、研究综述(一)一带一路沿途恐怖袭击事件研究综述1.恐怖主义的界定由于恐怖主义愈发的猖獗,使得恐怖主义一直都是学术界的热门研究对象,由此造成了该词在多年不同的研究中产生了许多种甚至不同的定义。导致该词定义出现差别的原因主要有三个因素,一是各国家都有着各自政治利益上的差别,因此各国对恐怖主义的理解以及定义也会有所不同。由于各国都有本国的政治利益等需要,对暴力行为、恐怖思想传播等恐怖活动的概念的定义必然存在许多分歧。二是恐怖主义的活动方式复杂多样,因此其和局部地区的战争、普通的刑事犯罪完全区别开是非常困难的,同时世界各国媒体对“恐怖主义”一词在过于滥用,造成该词含义扩大现象。再有,恐怖主义不仅仅是一个多样的、复杂的政治和法律层面上的概念,它同时也是一种复杂的道德评判[1]。张健根据研究表明,中国在2011年10月29日召开的第十一届全国人民代表大会常务委员会第二十三次会议上通过的一项决定中,虽然没有确切地给“恐怖主义”一词划分定义,但是该决定对“恐怖活动”进行了明确地界定恐怖活动是指以制造社会恐慌、危害公共安全或者胁迫国家机关、国际组织为目的,采取暴力、破坏、恐吓等手段,造成或者意图造成人员伤亡、重大财产损失、公共设施损坏、社会秩序混乱等严重社会危害的行为,以及煽动、资助或者以其他方式协助实施上述活动的行为[2]。同时,恐怖主义行为与恐怖主义二者也容易被人们混淆,沃晓静则根据研究分别提出了恐怖主义和恐怖主义行为的概念,她指出任何破坏各类国家机关、国际组织的组织结构、工作秩序、人员安全、决议及其执行的行为都可以确定为恐怖主义行为。但恐怖主义则指的是暴力思想和与恐吓居民以及和其他违法暴力行为相关联的,对国家的权力机关、地方自治机关或者国际组织的决定施加影响的实际活动。可见恐怖主义行为与恐怖主义的概念也是相距甚远的[3]。2.一带一路沿途恐怖主义研究现状及发展宫玉涛分析了“一带一路”沿线恐怖袭击现状,他指出“一带一路”沿线的其他区域也不同程度地存在着恐怖主义势力的活动,例如在9.11事件之后,美国加强了境内恐怖袭击打击力度,使得欧洲一度成为恐怖主义势力发动恐怖袭击的主要地区,一些恐怖主义势力甚至将欧洲国家视作“成名”或扩大恐怖组织影响力的温床。其中,由于英国、西班牙两国跟随着美国参与伊拉克战争,使得两国更是成为恐怖组织重点活跃的地区,法国也同样成为袭击事件高发国家。在俄罗斯的高加索和车臣地区,恐怖势力也非常活跃,恐怖袭击事件频发。同样,近年来我国也是饱受恐怖主义的威胁。以“东突”、“藏独”两股势力为主流的恐怖势力在我国各地区制造了一系列袭击事件,表现出了恐怖活动从边疆地区向内陆地区延伸的趋势[4]。刘青建总结了近年来中亚、南亚北部、西亚和北非的恐怖主义的发展,他将恐怖主义的发展分为三个阶段的扩散,分别为阿富汗战争之后到“阿拉伯之春”前夕;“阿拉伯之春”爆发之后;而当前,恐怖主义势力在美军于西亚撤退和在中东地区进行战略收缩之时,正在向阿富汗、伊拉克和北非地区回转[5]。(二)新闻标题相似度研究综述1.新闻相似度研究现状周由、戴牡红等人提出了一种同时融合了内容和语义分析的算法。此算法将同义词集合的逆文档频率和语义相似度进行融合,然后再采用WordNet做相似度计算。构建除了用户配置文件并进行测试,并验证了这种方法的有效性[6]。张艳杰则研究了基于行块分布函数的网页正文抽取算法、基于分治法的小标题识别方法、中文分词原理和分类、改进的TF-IDF算法、基于语义和结构相似度的句子相似度计算方法[7]。2.新闻相似度研究方法王志超、翁楠等人提出一种自动识别新闻的算法。他们利用新闻网页构成的特点,抽取其中的标题和正文;构建出句子关系矩阵,提出一种以语句为单位的主题句抽取算法;根据句子的相似度计算结果来进行识别[8]。彭雨龙则针对KNN算法在解决新闻分类时不单单探究了文字层面上的相似性,同时也考虑到了新闻的语义层面,提出了一种结合了VSM和LDA两个模型的新闻分类算法。他在深入研究VSM和LDA模型的基础之上,首先对新闻进行VSM和LDA主题建模,同时结合VSM与LDA两种模型来求得新闻篇章间的相似度;最后,再将获得的复合相似度使用到基于相似度加权表决的KNN算法来对新闻语料进行分类,并取得良好的实验效果[9]。二、研究方法与改进(一)字符串相似度基本的相似度计算方法大多针对于文档或者字符串层面,而本研究需要计算的是基于新闻标题的相似度,即句法级层面,是计算两个句子中各个词之间的匹配程度。因此,本研究在使用相似度算法时利用Python针对算法做出了改进。1.编辑距离(Edit distance)算法编辑距离算法首先由俄罗斯科学家Levenshtein提出,因此又称Levenshtein算法。其属于一种有序匹配算法。编辑距离表示一个字符串变成另一个字符串时需要进行的最少替换、删除和增加的操作次数,每一次的操作的对象为一个字符。假设有A的字符串长度为m,B的字符串长度为n,它们的编辑距离为dist(m,n),其动态规划公式为当m=0且n=0,dist(m,n)=0;当m=0且n>0,dist(m,n)=n;当m>0且n=0,dist(m,n)=m;当m>0且n>0,dist(m,n)=min(dist(m-1,n)+1,dist(m,n-1)+1,dist(m-1,n-1)+f(m,n))f(m,n)是A的第m个字符到B的第n个字符所需的操作代价,当A的第m个字符等于B的第n个字符时,不需要任何操作,则f(m,n)=0;否则f(m,n)=1[10]。一般来说,两个字符串之间的相似度越大,他们的编辑距离则越小,反之亦然。编辑距离的相似度计算具体公式如下S=1-(????????????????(????,????)) (1)其中,S为相似度结果,E为编辑距离,m和n分别为A和B两个字符串的长度,max(m,n)则为取两个数值的最大值。相似度数值越大,两个字符串之间越相似。相似度取值范围为[0,1],相似度由0到1表示相似程度越来越大。Python直接提供了可直接实现编辑距离的Levenshtein包,在使用时直接传入两个字符串作为参数,返回的则是这两个字符串的编辑距离。而在本研究中,计算的是一带一路恐怖袭击事件新闻报道标题的相似度,针对的是两个标题中词与词对比,因此本研究根据编辑距离算法利用Python编程做出了改进,使编辑距离算法能够计算数组之间的编辑距离。2.最长公共子序列(LCS)算法最长公共子序列(Longest Common Subsequences,简称LCS)算法是将两个定的字符串分别去除零个或者多个字符,但不改变其余字符的顺序而得到的最长相同字符序列。例如存在两个字符串A={abcdefg}和B={cdefghi},那么序列{cde}则为两个字符串的最长公共子序列。而本研究基于数组间的相似度计算,则将数组看作一个序列,设A={a1,a2,,am},B={b1,b2,,bn},A和B序列的最长子序列为Z={z1,z2,,zk}。序列A长度为m,序列B长度为n,Lm×n表示A和B序列的LCS矩阵。用动态规划的方式表示,则[11]当am=bn,则zk=am=bn,且zk-1是am-1和bn-1的最长公共子序列;当am!=bn,则zk!=am,且z是am-1和b的最长公共子序列;当am!=bn,则zk!=bn,且z是a和bn-1的最长公共子序列;根据性质得出递归公式当m=0,n=0时,L[m][n]=0;当m,n>0且am=bn时,L[m][n]=C[m-1][n-1]+1;当m,n>0且am=bn时,L[m][n]=max{C[m][n-1],C[m-1][n]};而A和B两个对象的LCS长度则记录于L[m][n]中,而Z即为获得的LCS。(二)共现分析共现分析是一种将各种不同的信息载体中共同出现的信息进行定量化的分析方法[12],通过分析信息的共现情况,人们能够发掘出大量的、繁杂的信息中潜在的或隐含的有价值的信息、数据或知识,发现研究对象之间的远近亲疏关系。事物的相互联系是共现发生的内在原因,而共现现象是事物相互联系的外在表现[13]。通过构建共现矩阵,可以更加直观地表达出对象之间的关联程度。矩阵内每个数字都代表着两个对象在一批数据中的共同出现的次数,因此数字越大表示两个对象之间的关系越密切,而由于一个对象和自己是不存在共同出现的情况,因此矩阵对角线上的数字记为0。(三)社会网络分析社会网络分析是一种社会学研究方法,网络的节点是人、集团、组织或者其他知识处理实体,而节点之间的连接则指的是关系或流动。它将各个个体成员之间的关系进行量化,强调成员之间的关系而非个体特征[10]。在社会网络若干中,边代表着两个节点表示的对象之间存在的关联程度,而度则是一个节点连接边的多少,一个节点连接的边越多,则度越大。而在本研究中,因使用的数据较为特殊,因此仅结合共现分析以节点的度作为统计和分析对象。(四)数据可视化通过可视化方式,可以直观、方便地从大量数据中获得所需的信息。数据可视化指的是使用计算机学中的信号处理、图形学以及图像处理等方法对信息、数据和知识的非外在结构进行表达和展示。接着,再借助于人类的视觉感知和智能认知能力,来起到清晰有效地传达、沟通并辅佐人们进行数据分析的作用[11]。随着大数据时代的到来,利用计算机可视化技术,同时结合人类本身的认知能力对庞大的多个维度的数据来进行分析是一种高效的信息获取方式。本研究主要利用Microsoft Excel 2016自带的地理可视化插件以及gephi软件,结合数据本身的地理信息,实现对数据的地理可视化和共现图谱。三、数据来源与数据清洗(一)数据来源本研究所使用的数据来源于由马里兰大学START总部建立的全球恐怖袭击数据库(Global Terrorism Database,以下简称GTD)所统计的全球范围内发生的恐怖袭击事件。该数据库中的每份数据来自于公开的情报资源,主要包括媒体文章,电子新闻档案,二手信息如书籍、期刊和法律文件。为了保证GTD数据收集有效性、准确性和完整性,GTD团队采用了自动和手动数据收集策略[15]。同时,为了尽可能的用最少的字段来对恐怖袭击事件来进行最完整的辨识与描述,其收集的来源超过了100万个全球范围内任何有可能发行恐怖袭击报道新闻的报社与媒体。GTD将恐怖主义袭击定义为有非国家行为者通过震慑、威压、恐吓且为达到政治、经济、宗教或社会目标而进行的威胁或非法暴力活动。每一事件需要同时包含以下三个特质在内[16]事件必须是蓄意的——有行凶者做出的有意策划的结果;事件必须包含某一暴力活动或者直接的暴力威胁——包括财产暴力和人身暴力;事件行凶者必须是次国家行为者。数据库不包含国家恐怖主义行为。此外,至少以下三个入选标准的两个必须出现在GTD中的一个事件当中行动一定是为达到某种政治、经济、宗教或社会目标。根据经济目标,唯独追求利益不满足这一标准。它必须包含追求更深远的、系统的经济改变。必须有证据表明是对随机群众而非对直接受害人有意胁迫、恐吓或表明某些其他信息进行的恐怖活动。这一行动被认为是一个经过深思熟虑的事件,无关涉及到执行行动的每个独立个体是否意识到这一目的。只要恐怖袭击幕后的规划者和决策者有意胁迫、恐吓或者宣扬,这个意向性的标准就被满足。活动必须是非法的的战争活动,也就是说,行动一定是在国际人道法允许以外的(尤其是禁止蓄意攻击平民或者非战斗人员)。该数据库数据量庞大、可信度高、恐怖袭击认知度规范,具有极大的研究价值与研究意义,因此选择该数据库作为本研究的数据是可行的。数据库中包含了每一事件的发生时间、地点、袭击目标与方式等共138个关键字段。本研究利用Microsoft Excel的筛选功能首先筛选出了2001年至2015年全球范围内发生的恐怖袭击事件数据。再利用Python编写程序,依据现有的一带一路沿途66个国家名单列表对筛选了时间后的数据进行提取,最终获得了2001年至2015年间发生在一带一路沿途国家的恐怖袭击事件数据。为了进一步方便研究与分析,本研究抽取了事件字段中的事件编号(EVENTID)、事件发生年份(IYEAR)、事件发生所在国家(COUNTRY_TXT)以及三个引用来源(SCITE1,SCITE2,SCITE3)共六个字段。其中三个引用来源指的该事件各个字段内的数据所来源的新闻报道的报道人、新闻标题、媒体机构或数据库(以下统称媒体机构)和报道时间,其以「报道人,“ 新闻标题,” 媒体机构, 报道时间.」的格式存储在一个单元格内,在这三个字段中,主要提取新闻标题和媒体机构作为研究的对象。(二)数据清洗与处理虽然GTD所统计的数据已经非常完善,但是由于数据量庞大,不同的GTD工作人员在处理和录入数据的过程中对相同的数据内容存在认知差异,因此数据的存储格式以及数据内容也存在较多的出入,存在着许多半结构化或非结构化的数据,这将导致后续使用Python编程进行数据处理的过程产生大量错误的结果,影响研究的准确性和可靠性。经本研究统计,存在数据问题的主要出现在第一引用来源、第二引用来源和第三引用来源的这三个字段中,数据存在的如下问题数据缺失在引用来源字段内容中,报道人、新闻标题、媒体机构和报道时间不完全存在,通常缺失报道人。数据格式不统一在引用来源三个字段中,数据未严格以「报道人,“ 新闻标题,” 媒体机构, 报道时间.」的格式进行存储,四个值之间的间隔符号出现错位与缺失的现象。出现中文符号GTD数据的存储语言为英文,但是在数据中会出现中文符号。媒体机构名称命名不统一表示同一家媒体机构名称多样,后续会影响统计数据。媒体机构下设分机构未合并一些大型的、具有全球性质的媒体机构存在多个下设分机构,使得同一媒体机构应拥有的数据(如出现频次、地理分布)出现分散情况,导致母机构的统计数值偏小。媒体网站与媒体实体机构名称不统一GTD数据的一部分数据来源于网络,因此在记录数据来源时,填写的为URL格式的网址。而通常较大型的媒体机构都拥有自己独立的网站。这样同样导致了在后续数据处理中媒体实体机构的数值的缺失和偏小。媒体机构名称命名拼写错误媒体机构名称拼写错误。具体错误样例如下表所示(序号与上述序号对应)表1 错误数据与期望数据示例序号原始数据期望数据1Iran News Agency, April 15, 2004.“,” Iran News Agency, April 15, 2004.2“Blasts in New Delhi kill 55”, CNN, Octber 30, 2005"Blasts in New Delhi kill 55," CNN, Octber 30, 20053“South Africa,” Toronto Star, August 15, 2001.“South Africa,” Toronto Star, August 15, 2001.4Xinhua News Agency (Beijing)、Beijing Xinhua、Xinhua等Xinhua News Agency5BBC Urdu、BBC London、BBC Monitoring South Asia等BBC6http://news.xinhuanet.com/english/2009/07/13/content_11698085.htmXinhua News Agency7Agence Frace-Presse、Agence French Presse等Agence France Presse为了使统计结果更加精确,本研究采用了机器与人工相结合的策略对数据进行清理。1.机器清洗针对表X中的问题,经本研究分析,问题1,2,3可利用Microsoft Excel的筛选与替换功能和Python编程结合的方式对错误数据进行清洗。针对问题1,利用Excel的筛选功能,在文本筛选中输入“*”,”和“*””,检索式之间选择“或”进行连接,该表示搜索出以“”,”或“””结尾的字符串,“*”表示匹配多个字符。然后对筛选出来的结果进行人为识别根据新闻标题进行补充,对完全缺失媒体机构信息的则在字符串后方补充NULL。针对问题2,利用Excel的筛选出未包含“”, ”的数据,再使用替换将新闻标题与媒体机构之间的错误分隔符替换成标准的分隔符“”, ”。针对问题3,使用替换,查找出所有可能出现的中文符号并进行替换。2.人工清洗针对问题4、5、6、7,本研究先使用Python编写程序,在根据清洗完问题1、2、3的数据基础上,对媒体机构进行单独抽取放入新的列内,并用Python对其进行频次统计,将统计的结果放入新的Excel表格中进行降序排列,构建初步未清洗媒体机构名称前的词表,共10794组数据。然后根据该表,从出现频次最多的媒体机构开始,结合筛选,选择媒体机构名称中的关键词,如“Xinhua News Agency”中的“Xinhua”来对抽取出的机构列进行检索,将检索的结果替换成统一的名称。针对问题6,在文本筛选中输入“*http*/*”和“*www.*/*”,检索式之间选择“或”进行连接,该表示选择出包含同时包含“http”和“/”或者“www.”和“/”的字段,即将带有URL格式的字符串筛选出来,然后根据URL中的关键名称,如“http://news.xinhuanet.com/english/2009/07/13/content_11698085.htm”中的“xinhuanet”进行人为识别,然后根据媒体机构名称词表进行统一替换。在数据清洗之后,再次使用Python对清洗后的媒体机构进行频次统计,最终获得3917组数据,清洗效果显著。四、研究思路与结果分析(一)研究思路为了让研究更加具有可靠性和准确性,本研究将从新闻标题的相似度、媒体机构共现频次以及媒体机构地理共现可视化三个层次来对一带一路沿途恐怖袭击新闻篇章报道的模仿程度这一主题进行探究。由于获取的GTD数据缺少引用来源的正文数据,仅有引用来源的新闻标题,因此本研究主要利用新闻标题层面的模仿偏好来进行的判断。通过对同一恐怖袭击事件不同媒体机构提供的新闻标题进行相似度分析,来判断两家媒体机构之间是否存在新闻标题命名模仿的偏好。并且,在进行相似度计算时,本研究同时使用了编辑距离相似度算法和最长公共子序列算法。编辑距离相似度用于反映新闻标题之间的相似程度,而最大公共子序列则用于直观体现两个新闻标题的共同内容,用于辅助分析。其次,针对一个恐怖袭击事件拥有一个至三个引用来源的特点,利用共现分析的方法,构建媒体机构的共现矩阵。通过共现矩阵获得不同媒体机构两两之间的共现频次,再对频次进行降序排列获得共现次数较高部分的机构名单。最后,根据以上取得的结果,结合原始数据中提供的事件发生地理信息,利用地理可视化绘图工具,来对模仿程度较大的媒体机构组进行地理位置呈现,以对研究结果进一步加以判断和证明。具体研究思路如图1所示。/图1 研究思维导图(二)研究结果与分析1.一带一路恐怖袭击数据基本情况本研究利用Mirosoft Excel 2016自带的绘图工具和地理可视化插件,从GTD中根据抽取出的2001至2015年间一带一路沿途发生的恐怖袭击事件共74186条数据,绘制了2001至2015年间一带一路沿途发生恐怖袭击事件超过100次的国家频次分布图及其地理分布图,如图2与图3所示。/图2 2001至2015年一带一路沿途恐怖袭击事件部分国家频次分布图/图3 2001至2015年一带一路沿途恐怖袭击事件地理分布图由图中可看出,一带一路沿途66个国家在2001至2015年间基本都发生过恐怖袭击事件。从图3中可以看出,恐怖袭击活动高频发生地区主要分布在西亚、中亚以及南亚,其中伊拉克为数据中发生恐怖袭击次数最多国家,共18599次。居第二位的巴基斯坦发生恐怖袭击事件次数为10902。居第三位为阿富汗,共发生9552次恐怖袭击事件。第四位为印度,频次为6721次。值得一提的是,伊拉克作为发生恐怖袭击次数最多的国家,其周围国家的恐怖袭击事件发生次数却相对较少,如叙利亚1322次,伊朗发生119次,阿拉伯联合酋长国169次,出现这种情况原因应该与海湾战争战后影响以及宗教极端主义组织“伊拉克和大叙利亚伊斯兰国(ISIS)”的建立以及活动相关。同样,频次分居第二和第三位的阿富汗与巴基斯坦也是因为作为“基地”组织发源地区而受到该组织的影响。而印度作为恐怖袭击次数发生次数排名第四位的国家,是由于印度在独立之后,其国内存在的宗教矛盾现象没有得到根本的解决。印度教徒虽然占有本国总人口的80%以上,但是存在的穆斯林数量却超过了1.5亿。宗教信仰对立而产生的仇恨,使印度成为了滋生恐怖主义的温床。2.媒体机构对一带一路恐怖袭击事件报道频次分布本研究对三组引用来源中的媒体机构进行了统计,截取了出现频次超过1000次的媒体机构进行统计与分析,频次分布图如图4所示。/图4 媒体机构频次分布图出现频次最多的前四位媒体机构分别为Lexis Nexis(即律商联讯)9304次、OSC Summary(开源的商业概要)9297次、Agence France Presse(即法国新闻社)8714次以及Xinhua News Agency(即新华通讯社)8326次。由图4可看出,排名较前的媒体机构呈现多样化,不仅有世界主流媒体,如法国新闻社、路透社(Reuters)、美联社(The Associated Press)、新华通讯社等,同时也包含了具有地方代表性的媒体机构,如PNA (Philippines News Agency,即菲律宾新闻社)、Lahore Daily Times(拉合尔每日时报)、AIP(Afghan Islamic Press,即阿富汗伊斯兰通讯社)等,结合恐怖袭击地理分布情况分析,从一定程度上也反映了这些具有区域性质的媒体机构出现较高的原因。3.新闻标题的编辑距离相似度分析本研究将三组引用来源的新闻标题两两进行了相似度计算,分别使用了编辑距离相似度算法以及最长公共子序列算法,其相似度直方图如图5所示,同时使用了最长公共子序列算法找出了标题中相同的部分进行辅助分析。/图5 基于编辑距离算法的新闻标题相似度直方图根据数据,共统计了103891条新闻标题的相似度。新闻标题的编辑距离相似度范围基本集中在[0,0.5]区间,共有97881,占总比的94.21%。编辑距离相似度居于(0.95,1]区间的为1219条,占比1.17%,且相似度为1的有1219个。针对[0,0.5]区间,可见多数媒体机构在进行新闻标题命名基本是相对独立的,相似度范围主要分布在[0,0.5]区间的原因是每个事件都存在其关键字,这些关键字是组成描绘单独一个事件的必要字段,是无法替代和省略的。为进一步证实,本研究在统计编辑距离相似度的基础上,利用了最长公共子序列算法,求出编辑距离相似度区间在[0,0.05]内的每组新闻标题相同的部分,为节省篇幅,仅列出部分结果,如表2所示。表2 [0,0.05]区间内相似度与最长公共子序列关联情况序号编辑距离相似度LCS最长公共子序列内容10.54Russian deputy killed Moscow20.57Policemen Killed in Suicide Attack in Kashmir30.44443kills 4 Afghan40.32civilians 1650.253in southern Thailand60.254Iraqi Events 27 May70.18181on80.07691Somalia90.07141in1001Chechen根据表2可以看出,编辑距离相似度相对较大时,最长公共子序列内的内容展示的越详细,词性也多样,包含了名词、动词和形容词。名词主要为时间、地点、袭击对象以及相关数字,如“27 May”、“Moscow”、“Kashmir”、“Suicide Attack”、“4 Afghan”等等;动词主要为恐怖袭击的方式,如“Killed”、“kills”等等;而形容词则为表是方位性质的词,如“southern”等。编辑距离相似度较小的时候,最长公共子序列内的内容主要为地理名词和表方位性的介词,如“Iraqi”、“Somalia”和“on”、“in”等。而这些特点都符合新闻标题命名时简明概要、直白的习惯。针对相似度为0的现象,根据最长公共子序列算法结果,不仅存在如表2中序号10存在单独一个关键字的现象,也主要因为两篇新闻针对了两个不同范围的事件进行报道,而其中一篇新闻中部分包含了另一个事件的内容,因此会被GTD工作人员作为引用来源进行收录,如事件编号为200104130001的数据中,法国新闻社(Agence France Presse)于2001年4月13日报道“Suspected rebels kill two policemen in Aceh”,而Hong Kong AFP则于2001年4月15日的报道为“Violence in Indonesias Aceh province leaves at least six dead”。其次,也存在个新闻对同一个事件进行报道但完全未使用相同关键字的现象,如事件编号为200101030003的数据中,The Times of India于2001年1月4日报道“Violence Mar Mamata’s Meeting in Midnapore”,而The Hindu则于2001年1月5日将事件新闻命名为“Trinamool Calls Bandh”。针对(0.5,0.8]区间,本研究认为该区间属于相似度适中区间,其特点根据既包含了[0,0.05]区间的存在主要关键词的特点,也存在(0.8,0.95]区间的各种特点,因此不做分析。针对(0.8,0.95]区间,并且根据最长公共子序列算法获取的结果,在相对较高的相似度区域中,两个新闻标题相似度高的原因是因为存在以下几点两个新闻标题对同一事件进行报道时,可能由于消息偏差或者不及时,存在部分关键词差异现象,如在事件编号为201401180015的数据中,美联社于2014年1月18日报道“Clashes, bombings kill 30 people in Iraq”,而报道同一事件的商务周刊(Business Week)同样于2014年1月18日对该事件进行报道,但新闻标题的命名却为“Clashes, bombings kill 6 people in Iraq”,两者的相似度为0.8889。两个新闻报道同一事件时,虽然共同存在主要的关键词,但是由于新闻的切入角度的差异,所以相似度不会达到1。如事件编号为201412040015的数据中,新华社(Xinhua News Agency)于2014年12月4日报道“Policeman injured while defusing bomb in Egypt”,Business Standard India则于2014年12月4日报道“4 injured while defusing bomb in Egypt”,两者相似度为0.875。新华社主要切入角度为受伤的对象为警察,而Business Standard India切入对象为受伤着人数。两个新闻报道同一事件时,存在换汤不换药的现象,即将两个标题中部分关键词是同义词关系,如在事件编号为201403240038的数据中,Sun Star Network于2014年3月24日报道“2 troops killed, 4 hurt in Quezon ambush”,而Manila Times则于当天对该事件进行报道,新闻标题为“2 soldiers killed, 4 hurt in Quezon ambush”,两者的相似度为0.9。在两个新闻标题中“troops”和“soldiers”属于同义词关系。又如在事件编号为201401170018的数据中,法国新闻出版社(Agence France Presse)于2014年1月17日对其命名为“Suicide bomber kills three in Iraqs Anbar”,而Oman Tribune于2014年1月18日对其命名为“Suicide bomber kills 3 in Iraqs Anbar”,两者相似度为0.8889,两个新闻标题中“three”和“3”为等同关系。针对(0.95,1]区间,相似度为1的有1219个。同时根据最长公共子序列算法结果,抽取部分相似度为1的新闻标题,如下表表3 相似度为1时最长公共子序列部分结果序号编辑距离相似度LCS最长公共子序列内容119Five Policemen Killed in Landmine Blast in Southern India218Insurgents kill 17 people including VP s guards3111PWG on Rampage in AP Blasts Factories of CM Federal Minister415Gunmen kill five in Baramulla519Chechen Web Site Reports Fierce Clashes Southeast of Groznyy617Police Avalanche Kills Four Rebels in Kashmir716Twelve injured in Pakistan bomb explosion817Two killed in attack in western Afghanistan918MSF compound attacked in southern Sudan four killed从表3得出,当编辑距离相似度为1的时候,两者共同拥有的内容基本文新闻标题的全部内容。出现这种现象主要有以下两点新闻标题在命名的时候存在直接套用的现象,甚至存在新闻报道正文照搬使用的情况。新闻标题在命名时按照新闻人命名常理和习惯,使用最少的关键词尽可能全面描述一个事件,两个新闻标题相同纯属巧合。4.媒体机构基本共现分析研究将清洗后的媒体机构名称根据是否对同一恐怖袭击事件报道进行关联,如果在相同的一个事件当中,有多家媒体机构对此进行了新闻报道并且被GTD收入数据库,则认为这几家媒体机构实现了共现。利用清洗后的媒体机构名单,根据关联后的数据,构建了长度为3917×3917的媒体机构共现矩阵,然后再使用Gephi软件就算了矩阵中媒体机构的度并绘制出了部分媒体机构共现图谱,如表4图6所示。表4 媒体机构节点度序号媒体机构度序号媒体机构度1Agence France Presse102813AFP2482Xinhua News Agency83414Gulf News2463The Associated Press79315Deutsche Presse-Agentur2394Reuters58816Daily Star2325BBC55217Telegraph2286OSC Summary48218The Nation2257Lexis Nexis37119Al Jazeera2118The New York Times34720Daily News2099Janes Terrorism Watch Report28421Pajhwok Afghan News20710Worldwide Incidents Tracking System28322UPI20411CNN25723Afghan Islamic Press (AIP)20112PNA (Philippines News Agency)25124The Independent200/图6 部分媒体机构共现图谱表4选取了度大于200时的媒体机构,图6呈现的为度大于或等于100时媒体机构共现图谱。图6中,节点的度越大,其节点呈现的越大,节点的标签字体越大,节点颜色越深,而节点与节点之间的连线表示共现频次,两节点间的共现频次越大,其呈现的越粗,颜色越深。根据表4,从图6可知法国新闻社(Agence France Presse)、新华社(Xinhua News Agency)、美联社(The Associated Press)、路透社(Reuters)以及英国广播公司(BBC)的度最大,其连接边数分别为1028、834、793、588和522。结合图6媒体机构频次分布图,在恐怖袭击报道数量排名前8名中,除去Lexis Nexis、OSC Summary以及World wide incidents Tracking System(即世界事件追踪系统),其余都出现在榜上,因此媒体机构报道恐怖袭击次数越多和其与其他媒体机构报道同一事件的次数存在一定的关联。5.媒体机构高相似度共现分析将图5基于编辑距离算法的新闻标题相似度直方图中相似度为1的1219条新闻标题通过事件编号与媒体机构进行关联,获取了350×350新闻标题高相似度媒体机构的共现矩阵,以此利用Gephi软件绘制新闻标题高相似度区间内的媒体机构共现图谱并统计其每个节点的度,如图7和表5所示。/图7 新闻标题高相似度媒体机构共现图谱表5 新闻标题高相似度媒体机构节点度序号媒体机构度序号媒体机构度1Agence France Presse3214Yahoo News82The Associated Press2415Jerusalem Post73Plus News Pakistan1816Lexis Nexis74Xinhua News Agency1617Daily The Pak Banker75Reuters1418FOXNews.com76Daily Star1419News Track India77Big News Network1320AllVoices78The News1121ZeeNews.com69PNA (Philippines News Agency)1022The Hindu610The Frontier Star1023DAWN Group611BBC924Lahore Daily Times612The Press Trust of India925Deutsche Presse-Agentur613The Nation9结合表5中的度与图7中的节点大小,在高相似度区间内参与共现次数最多的前6名分别为Agence France Presse、The Associated Press、Plus News Pakistan、Xinhua News Agency、Reuters和Daily Star,其度分别为32、24、18、16和14。即在高相似度区间内,该6家媒体机构为主要的共现节点。根据图7和表5再对比图7媒体机构频次分布图,不仅世界主流媒体机构如Agence France Presse、The Associated Press、Xinhua News Agency和Reuter等,一些具有区域性质的媒体机构也出现在图和表中,如PNA (Philippines News Agency)、The Press Trust of India和News Track India等。同时,一些低频次的媒体机构也出现其中,如Big News Network、The Frontier Star、Yahoo News、Jerusalem Post、Daily The Pak Banker、FOXNews.com等等,但其度相对与世界主流媒体机构较低。为进一步分析,本研究选取了共现度排名前四的Agence France Presse、The Associated Press、Plus News Pakistan、Xinhua News Agency四家在媒体机构与其他媒体机构的共现图谱。/图8 新闻标题高相似度区间法国新闻社(Agence France Presse)共现图谱从图8中可以发现,主要与Agence France Presse共现的媒体机构有Plus News Pakistan、Daily Star、The Nation、The Press Trust of India、Yahoo News、Lexis Nexis、Daily The Pak Banker等,并且与Daily Star关联次数最多。其中,Plus News Pakistan、The Press Trust of India、Daily The Pak Banker属于区域性质的媒体机构,其所属国家基本处于巴基斯坦和印度。而Daily Star、The Nation、Yahoo News、Lexis Nexis属于全球较为著名的新闻媒体。/图9 新闻标题高相似度区间美联社(The Associated Press)共现图谱图9中可以发现,主要与美联社(The Associated Press)共现的媒体机构有Big News Network、Daily Star、The Press Trust of India、ZeeNews.com、FOXNews.com、BBC等。其共现特点基本与法国新闻社相似。/图10 新闻标题高相似度区间Plus News Pakistan共现图谱根据图10与前两家世界主流媒体机构不同的是,Plus News Pakistan主要共现对是主流媒体机构,如新华社、法国新闻社等。其中与The News关联频次最多。/图11 新闻标题高相似度区间新华社(Xinhua News Agency)共现图谱从图11可以看出和新华社共现的机构主要有PNA (Philippines News Agency)、Plus News Pakistan、Big News Network以及The Nation。根据共现的媒体出版社,新华社主要关联的区域为菲律宾和巴基斯坦地区。同时,在高相似度区间内新华社基本没有和其他世界主流媒体机构关联,即关联强度不大。根据图8、9、10、11,结合分析,在高相似度区间的媒体机构共现主要出现以下几个特点单个世界主流媒体的共现频次较地区性质的媒体机构要多;区域性质的媒体机构基本处于恐怖袭击事件高发地区,如Plus News Pakistan所属国家为巴基斯坦,PNA (Philippines News Agency)所属国家为菲律宾,The Press Trust of India、News Track India和The Hindu属于印度;地区性质的媒体机构在共现中的个数较世界主流媒体机构的个数要多,即在高相似度区间内,具有区域性质的、较相对小型的媒体机构的个数要比世界主流媒体机构的个数要多;世界主流媒体机构之间的共现次数较少,即出现在高相似度区间的世界主流媒体之间基本没有出现照搬套用的现象;部分机构共现呈现区域性质,如新华社主要与菲律宾和巴基斯坦地区关联。出现这些特点的原因可能是因为由于带有区域性质的媒体机构距离恐怖袭击事件发生地较近,新闻传播的速度较国外主流媒体机构要快得多,并且真实度高,可靠性强。一些主流媒体机构为了能够及时对某一恐怖袭击事件进行报道,会采取一些直接搬运一些区域性质的较为小型的媒体机构的新闻。而主流媒体机构主要针对的是全球范围内的事件进行报道,因此造成了世界主流媒体的共现频次较地区性质的媒体机构要多和地区性质的媒体机构在共现中的个数较世界主流媒体机构的个数要多的现象。6.新闻标题高相似度媒体机构地理共现可视化为方便研究新闻高相似度区间媒体机构间的报道事件发生地,本研究主要了结合图8分别绘制出其事件发生地共现图谱。/图12 新闻标题高相似度区间Agence France Presse事件地理共现图谱其中红色区域为Daily Star,黄色区域为Plus News Pakistan,橙色区域为The Press Trust of India,紫色区域为PNA (Philippines News Agency)。根据图12可以看出,Agence France Presse与Daily Star主要共现区域在北非,叙利亚以及俄罗斯,和Plus News Pakistan主要共现区域在巴基斯坦,和The Press Trust of India主要共现区域在印度,和PNA (Philippines News Agency)共现区域在菲律宾。因此,结合图12进一步证实了高相似度区间的媒体机构共现特点的原因。五、研究结论与建议(一)研究结论根据研究结果可以看出,在2001年至2015年间世界各大小媒体机构针对一带一路恐怖袭击事件进行的报道基本都涵盖了一带一路沿途的66个国家。其中,恐怖袭击活动高频发生地区主要分布在西亚、中亚以及南亚。伊拉克为数据中发生恐怖袭击次数最多国家,共18599次。居第二位的巴基斯坦发生恐怖袭击事件次数为10902。居第三位为阿富汗,该国的恐怖袭击事件共发生了9552次。第四位为印度,频次为6721次。影响恐怖袭击事件发生的频次主要与该地区存在战后阴影的笼罩、宗教极端主义组织和恐怖主义组织的诞生以及宗教矛盾等原因相关。媒体机构报道事件的地理频次分布与事件发生的地理频次正相关,即某地事件发生次数越多,其被报道的次数越多。其中针对事件报道次数较多的主要为世界主流媒体,如Lexis Nexis、OSC Summary、Agence France Presse、Xinhua News Agency、Reuters等等。但也存在一些具有地区性质的相对较小的媒体机构如PNA (Philippines News Agency)、Lahore Daily Times、AIP(Afghan Islamic Press)等,出现这种情况的原因在于这些带有区域性质的媒体机构多数处在恐怖袭击事件高发地区。针对新闻标题相似度的情况,大多数媒体机构在对某个事件进行命名时都会避免重复的情况出现,大部分的新闻标题的相似度主要集中在[0,0.5]区间,其主要原因是新闻人在对一带一路恐怖袭击事件新闻标题命名时,每个事件都存在其关键字,这些关键字是组成描绘单独一个事件的必要字段,如时间、地点、袭击对象等,是无法替代和省略的。而部分新闻标题相似度出现在(0.8,0.95]区间内,其原因可能由于事件信息传播偏差或者不及时造成标题命名时部分关键词出现偏差,或者两家媒体机构针对同一条新闻事件进行报道时切入的角度不同,亦或者两家媒体机构对一事件进行报道时出现模仿或者甚至照搬现象。同时,新闻标题也存在的相似度为1的情况,其原因可能在于一家媒体机构对另一家媒体机构报道的事件新闻进行直接照搬,也或者新闻人有着相似的命名常理和习惯,都会使用最少的关键词尽可能全面描述一个事件,两个新闻标题相同纯属巧合。针对媒体机构共现的情况,其度的分布特点基本和媒体机构对事件报道频次分布相似,不仅存在如法国新闻社、新华社、美联社、路透社等世界各大主流媒体机构,也包含了部分地区性质的媒体机构,如PNA (Philippines News Agency)、Al Jazeera、Afghan Islamic Press (AIP)等。整体上看,世界主流媒体度的排名基本靠前,但主流媒体个数较少。而对于带有区域性质的媒体机构的度的排名则基本居中和靠后,但其数量要大于世界主流媒体的个数。这种分布特点同时也存在于相似度为1的区间内。在新闻标题相似度为1的区间内,通过共现图谱的展现和根据度的排序,主要呈现出四个分布,分别为法国新闻社、美联社、Plus News Pakistan以及新华社。其中法国新闻社主要与Plus News Pakistan、Daily Star、The Nation、The Press Trust of India等共现次数较多,美联社与Big News Network、Daily Star、The Press Trust of India、ZeeNews.com、FOXNews.com、BBC等共现次数较多。和前两者不同的是,Plus News Pakistan则主要与主流媒体机构共现次数多,如新华社、法国新闻社等。而新华社的共现对象所属国家基本处于亚洲范围,如PNA (Philippines News Agency)属于菲律宾,Plus News Pakistan属于巴基斯坦。针对高相似度的报道事件的地理分布情况,研究使用了在新闻标题相似度为1的区间内共现矩阵中度最大的节点法国新闻社进行分析。根据结果发现,法国新闻社与其他媒体机构的新闻标题相似度为1的事件分布地理区域基本与与其共现的媒体机构所属国家分布有关,如法国新闻社与PNA (Philippines News Agency)共现地区分布在菲律宾,与Plus News Pakistan共现分布在巴基斯坦地区,与The Press Trust of India的共现分布在印度地区。而这种情况的出现可能由于带有区域性质的媒体机构距离恐怖袭击事件发生地较近,新闻消息获取的速度相比于国外主流媒体机构要快得多,并且真实度高,可靠性强。一些主流媒体机构为了能够及时对某一恐怖袭击事件进行报道,满足全球范围内读者的阅读需求,会采取一些直接搬运一些区域性质的较为小型的媒体机构的新闻的措施。同时由于主流媒体机构主要针对的是全球范围内的事件进行报道,因此造成了世界主流媒体的共现频次较地区性质的媒体机构要多和地区性质的媒体机构在共现中的个数较世界主流媒体机构的个数要多的现象。(二)研究不足与建议1.研究数据缺少对应的新闻正文内容由于数据中缺少正文内容,因此无法计算正文的相似度来分辨媒体机构之间是够存在模仿和搬运现象时,只能针对新闻的标题相似度来进行研究。因此可能会对研究结果造成偏差,比如两家媒体机构对同一事件进行了报道,其新闻标题完全相似,但正文却不相同,因此这两家媒体机构是不存在模仿或者搬运的现象的。2.数据将同一报道划分成多个事件在原始数据中出现了多个事件来源于同一报道的现象,如事件编号为201511060004、201511060005、201511060006,其引用来源均为OSC Summary于2015年11月7日提供的“Highlights: Pakistan Balochistan Press 07 November 2015”。由于没用新闻正文,因此无法判断出出现这种情况的原因是否是其正文中同时包含了三个事件。3.相似度算法针对新闻标题的适应性改进在进行相似度计算时,未使用到语义层面的相似度算法,导致新闻标题相似度的结果存在偏差,如事件编号201401170024中,“Police say rebels kill 5 people in northeast India”和“Militants gun down six passengers in Assam”两个新闻的相似度为0.1429,原因是因为共同存在了一个介词“in”。致谢此外,感谢刘欢同学在我编写和改进相似度算法时提供的耐心指导与帮助,感谢徐潇洁同学在我绘制共现图谱时提供的指导。参考文献[1] 邹生才.恐怖主义定义新探[J].传承,2013(4):94-96.[2] 张健.简论恐怖主义要素[J].学理论,2015(5):23-24,29.[3] 沃晓静.论俄罗斯《反恐怖主义法》[J].新疆财经大学学报,2014(4):53-59.[4] 宫玉涛.“一带一路”沿线的恐怖主义活动新态势解析[J].党政研究,2016(2):18-26.[5] 刘青建,方锦程.恐怖主义的新发展及对中国的影响[J].国际问题研究,2015(4):114-126.[6] 周由,戴牡红,ZHOUYou,等.语义分析与TF-IDF方法相结合的新闻推荐技术[J].计算机科学,2013,40(s2):267-269.[7] 张艳杰.Web新闻自动方法研究[D].武汉:湖北工业大学,2015.[8] 王志超,翁楠,王宇.基于主题句相似度的标题党新闻鉴别技术研究[J].现代图书情报技术,2011,(11):48-53.[9] 彭雨龙.基于VSM和LDA模型相结合的新闻文本分类研究[J].山东工业技术,2016(6):202-203.[10] 费益佳.基于文献计量学的国家社科项目的分析与评价[D].南京:南京大学, 2016.[11] 郑凯,欧阳林艳,林强,等.LCS算法与编辑距离算法的研究[J].信息通信,2015(5):22-23.[12] 王曰芬,宋爽,等.共现分析在文本知识挖掘中的应用研究[J].中国图书馆学报,2007,33(2):59-64.[13] 荣莉莉,蔡莹莹,王铎.基于共现分析的我国突发事件关联研究[J].系统工程,2011(6):1-7.[14] 孙秋年,饶元.基于关联分析的网络数据可视化技术研究综述[J].计算机科学,2015,42(s1).[15] Lafree G, Dugan L. Introducing the Global Terrorism Database[J]. Terrorism & Political Violence, 2007,19(2):181-204.[16] Lafree G. The Global Terrorism Database: Accomplishments and Challenges[J]. Perspectives on Terrorism, 2010,4(1):1-7.
目录
摘要 1
关键字 1
引言 2
一、研究综述 2
(一)一带一路沿途恐怖袭击事件研究综述 2
1.恐怖主义的界定 2
2.一带一路沿途恐怖主义研究现状及发展 2
(二)新闻标题相似度研究综述 3
1.新闻相似度研究现状 3
2.新闻相似度研究方法 3
二、研究方法与改进 3
(一)字符串相似度 3
1.编辑距离(Edit distance)算法 3
2.最长公共子序列(LCS)算法 4
(二)共现分析 4
(三)社会网络分析 4
(四)数据可视化 5
三、数据来源与数据清洗 5
(一)数据来源 5
(二)数据清洗与处理 6
1.机器清洗 7
2.人工清洗 7
四、研究思路与结果分析 7
(一)研究思路 7
(二)研究结果与分析 8
1.一带一路恐怖袭击数据基本情况 8
2.媒体机构对一带一路恐怖袭击事件报道频次分布 10
3.新闻标题的编辑距离相似度分析 11
4.媒体机构基本共现分析 13
5.媒体机构高相似度共现分析 14
6.新闻标题高相似度媒体机构地理共现可视化 17
五、研究结论与建议 18
(一)研究结论 18
(二)研究不足与建议 19
1.研究数据缺少对应的新闻正文内容 19
2.数据将同一报道划分成多个事件 19
3.相似度算法针对新闻标题的适应性改进 20
致谢 20
参考文献 21
图1 研究思维导图 8
图2 2001至2015年一带一路沿途恐怖袭击事件部分国家频次分布图 9
图3 2001至2015年一带一路沿途恐怖袭击事件地理分布图 9
图4 媒体机构频次分布图 10
图5 基于编辑距离算法的新闻标题相似度直方图 11
图6 部分媒体机构共现图谱 14
图7 新闻标题高相似度媒体机构共现图谱 14
图8 新闻标题高相似度区间法国新闻社(Agence France Presse)共现图谱 15
图9 新闻标题高相似度区间美联社(The Associated Press)共现图谱 16
图10 新闻标题高相似度区间Plus News Pakistan共现图谱 16
图11 新闻标题高相似度区间新华社(Xinhua News Agency)共现图谱 17
图12 新闻标题高相似度区间Agence France Presse事件地理共现图谱 18
表1 错误数据与期望数据示例 7
表2 [0,0.05]区间内相似度与最长公共子序列关联情况 11
表3 相似度为1时最长公共子序列部分结果 13
表4 媒体机构节点度 13
表5 新闻标题高相似度媒体机构节点度 15
基于一带一路恐怖袭击语料库的新闻标题与媒体机构的特征统计与分析
引言
引言

原文链接:http://www.jxszl.com/jsj/xxaq/56576.html