[免费论文]汉越双语新闻文本分布相似度计算方法探究
及时的热点话题发现与追踪可以有效地帮助剖析越南舆论走向,实现面向越南的事件舆情剖析,为政府进行事件舆情监控及决策提供重要的依据,从而实现对重大事件的预警和防范.本文双语主题分布相似度计算方法对汉越双语新闻文本相似度进行计算.由于每个新闻文本的主题是与该文本的主题分布高度密切相关的,如果2个新闻文本的主题分布相似,就认为这2个新闻文本是相似的,很可能描述的是同一件事情.本文将多个新闻文本集合表征为与语言无关的文档主题分布,采用聚类算法进行文本聚类,从而实现在忽略文本实际语言的情况下,对不同语言表示的文本进行聚类.它可以在不考虑源语言和目标语言的情况下提供新闻报道的结构化表示,并根据新闻文本的特点,融合新闻文本中标题.时间和实体等要素,构建文本相似度矩阵,对汉越双语新闻文本采用自适应K均值聚类算法进行新闻文本聚类,剖析汉越双语新闻话题.2.新闻话题特点在线话题发现通常被看作是融合时间序列信息的文档聚类问题,其中每个类别表示一个话题.在单语话题发现探究方面,已有多种聚类算法被用于话题发现探究,如文献[1]采用凝聚层次聚类算法发现新话题,文献[2]通过融合多种聚类算法实现在线话题发现与追踪,取得了较好的效果.文献[3]通过融合进化聚类算法和主题模型实现在线话题发现与追踪,在互联网新闻话题发现与追踪方面取得了较好效果.在双语话题发现探究方面,主要有机器翻译的方法[4-5]和统计策略的方法[6-7].前者将多语言翻译为统一语言后,通过单语言方法完成话题发现,该类方法忽略了源语言所具备的结构.上下文特征;后者利用特征上下文蕴含的源语言信息,融合双语语言知识计算话题的相关度,实现双语在线话题发现与追踪.特征的上下文虽然蕴含了源语言语义信息,但也引入了大量不相关的噪声.在双语在线话题发现探究方面已有一些可借鉴的成果,但针对特定双语文本的话题剖析与发现,并没有考虑特定文本本身的特征,最终导致话题剖析效果不理想.在汉越双语新闻话题剖析探究方面目前还没有较成熟的解决方案,尚需开展深入探究.新闻话题的突发性和延续性是新闻话题发现的重要特点.并且,双语新闻话题具有跨语言主题相关的特点.针对同一话题的新闻事件往往存在新闻标题相似.发布时间相近.实体共现.关键字相同.事件要素跨语言共现等特征.这些特征对双语新闻话题发现与剖析具有重要作用.跨语言新闻话题剖析需要不同语言的新闻要素来表达同一个新闻.而由于新闻具有动态不断变化的实时性,不能单独在源语言或目标语言上使用单语线性判别剖析(LinearDiscriminantAnalysis,LDA)模型[8].3.新闻文本特征提取对于处理过的汉越双语新闻文本,提取里面的新闻要素.根据互联网中新闻文本的特点,提取了7类特征,即跨语言新闻文本相似度.新闻所属类别.新闻报到的标题.新闻的时间要素.实体要素.关键字以及新闻标题中带引号的信息词.3.1.跨语言新闻文本相似度在单语言环境下对话题剖析的建模方法有统计语言模型.向量空间模型和潜在语义模型等.统计语言模型与向量空间模型并没有考虑新闻文本中语义的特性,不能很好地捕获到新闻文本中的话题;而潜在语义模型由于在模型生成过程中存在缺陷,导致模型无法处理动态变化的数据.而由于新闻具有实时动态和不断变化的特点,因此不能分别在源语言和目标语言上使用LDA模型,因为在各自语言上的主题信息没有明显的对齐,所以使用文献[9-10]中的跨语言ML-LDA模型,它可以在不考虑源语言和目标语言的情况下提供新闻报道的结构化表示.通过从维基百科抽取的双语文档产生双语主题模型,然后使用得到的主题词预测新文档的主题分布,并将主题分布的相似度作为2个文本的相似度.3.2.新闻所属类别目前网站发布新闻都是分门别类发布的,比如网页新闻页面有军事.科技.综艺等栏目导航,网站对新闻的分类是新闻编辑者人工对新闻所属类别的判定,是一项很准确的信息.在话题发现过程中同一个话题往往属于同一个类别,类别的确定在语料的爬取中根据网站中新闻的分类确定.3.3.新闻报道的标题新闻的标题是一篇新闻报道的重要组成部分,是对整篇新闻的一个高度概括,现代汉语辞典解释标题的意思是标明文章.作品等内容的简短语句.”新闻标题由新闻报道者根据自己对新闻事件的理解总结出来,让读者通过标题就能知道新闻报道的大概内容.标题的相关性对双语话题剖析具有重要支撑作用.3.4.新闻的时间要素正式的新闻报道都含有时间要素.目前网络中的新闻报道都有精确的发布时间,发布时间的格式大多例如2015-02-2519:20:53”,也有的新闻报道的发布时间没有精确到时分秒,只有日期信息.对于这类时间要素,保存时把时间信息记为2015-02-2500:00:00”的形式.新闻报道有时间相近的特点,比如同一篇新闻报道的发布时间可能仅仅是日期相同,而具体到小时则不太一样.还有对重大事件的跟踪报道,这样发布时间中的日期也不相同.在新闻时间要素的提取上,除了考虑网页中发布时间这一个信息,通过分词工具的命名实体识别和正则匹配的方法可以识别出部分新闻文本中的其他时间信息,这些信息也作为新闻报道的时间要素.还有一些新闻报道中含有一些相对时间的信息,比如说昨日”,这种说法是相对发布时间来说的,这种相对的时间信息很少,在新闻文本处理的时候把这些信息也转换成相应的时间格式保存.3.5.新闻报道中的实体要素在同一事件的不同报道中,一般都会有实体共现特征.比如马航失联”事件,在不同的报道中,即使是不同语言都会出现马来西亚”.马来西亚航空”等实体信息.新闻报道中的实体信息是聚类过程中的重要特征.在文本预处理的时候利用分词工具,提取新闻文本中的实体信息.3.6.新闻报道的关键字在很多网站的新闻报道中都含有关键字属性,有的网站称之为标签.这些信息是比标题更为简练的对整篇新闻的总结,如果新闻报道中含有关键字信息,在模板的爬取中能准确地获取,保存在数据库中,在聚类过程中是重要的参考信息.3.7.标题中的引号词信息某些新闻标题中含有用引号引起来的词语,这些词语一般是特定情况下的新词,比如在马航失去联系”一事中,大多的新闻报道在标题上把失去联系”简写成失联”,可以认为失联”是关于马航事件”的独有的词.在最新的报道中使用了失联”,则后续的报道或者其他媒体的转载中也会使用失联”这个词,所以可以认为,时间相近的报道中只要标题或者新闻正文中出现了失联”一词,该篇报道是关于马航失去联系”的几率就非常大.也有的标题中含有引号词不是简写,而是一些词的组合,这些词一般是2个或者多个词语连用,在要报道的新闻中有其特定的含义.比如说网上有篇新闻的标题是:云南‘慈善妈妈’被举报骗政府项目敛财数千万”.标题中的慈善妈妈”就是由2个词语组合而成,在这里是反义的意思,在这篇新闻报道中多次出现慈善妈妈”,一般这2个词很少同时出现,在正常情况下即使同时出现,也会表达其原有的意思,而用引号引起来的报道,在时间相近的报道中可以认定是同一事件的报道.4.融合新闻特征的文本相似度矩阵使用双语主题分布词的汉越文本相似度计算方法计算汉越新闻的文本相似度;对于新闻中的要素特征,分别计算出不同的特征值,以不同的权重融合到文本相似度中.特征权重是根据人们日常对新闻中各项特征的认知经验以及新闻文本自身的特点进行设定的.例如标题是新闻文本中最重要的组成部分,把新闻标题的权重设定得较大;而针对新闻中的关键字,并不是所有的新闻都会提供关键字,把关键字的权重设置为一个较小值.在计算特征值时,利用维基百科中的其他语言列表”对词语和实体进行翻译,维基百科中没有或者有歧义的借助Google翻译.特征值计算方法及权重定义如表1所示.
原文链接:http://www.jxszl.com/lwqt/mflw/16681.html