问句自动分类和相似度计算以马铃薯问答系统为例【字数:11459】
目录
摘要 II
关键词 II
ABSTRACT II
KEY WORDS I
引言 1
1 选题背景 1
1.1 问题的提出 1
1.2 国内外研究状况 1
1.2.1 问题分类国内外研究状况 1
1.2.2 相似度计算的国内外研究状况 2
1.3 研究的目的和内容 2
1.3.1 研究目的 2
1.3.2 研究内容 2
2 数据源构建 3
2.1 数据来源 3
2.2 数据的分类 3
3 问句的自动分类 4
3.1 分类标准 4
3.1.1 六类的分类方法 4
3.1.2 二十六类的分类方法 4
3.2分类算法 5
3.2 .1朴素贝叶斯算法 5
3.2.2机器学习—XGBOOST算法 9
3.3 改进 10
3.4 综合分析 11
4 基于 word2vec 的问句相似度计算 11
4.1 问句相似度计算 11
4.2 word3vec词向量 12
4.2.1 词向量的原理 12
4.2.2 问句的特征向量 12
4.3 问句的相似度计算方法 12
4.3.2 欧几里德相似度计 *51今日免费论文网|www.jxszl.com +Q: ^351916072#
算方法 13
4.3.3皮尔逊相关度计算方法: 14
4.3.4 Jaccard系数 14
4.4 结果分析: 15
4 总结与展望 16
5 致谢: 17
6 参考文献: 18
问句自动分类和相似度计算——以马铃薯问答系统为例
引言
1 选题背景
1.1 问题的提出
在当今大数据到来的时代,我们每天会产生各种各样的数据,可以说是数以亿计,这些杂乱的数据,我们无法获取有用的信息,必须要经过分类整理之后,才可以得到有效的使用。然而,传统的文本数据分类处理方法是基于人工分类的。需要手动对数据一步一步分类,人工分类虽然主观性较大,可以很好的满足准确率的要求,但也存在时间繁琐的缺点,会消耗大量的资源,并难以对混合信息进行有效的区分和识别,也难以快速满足用户的需求。为了解决信息无序的问题,文本的自动分类技术,就成为了处理数据,以及组织信息的一项重要技术。
在问答系统中,问题的抽取一直是一个重点问题,在问题的抽取中,相似度计算就是其中重要的一步,相似度计算的方法多种多样。但是问答系统不仅要求高准确率,同时也需要节省时间,所以本文研究应该怎样选取一个更好的合适的方法,从而在保证准确度的情况下,还能减少时间开销。
1.2 国内外研究状况
1.2.1 问题分类国内外研究状况
当前问题分类种类各种各样,总替可以分为三种方式:特征词匹配、机器学习、神经网络。其中特征词匹配是运用的统计学的方式对问题进行分类的,运用统计学的方式,抽取问句中相对应特征词的集合,这一操作需要手动进行。根据特征词,计算确定每一类别的条件概率,从而生成分类器,通过分类器对问题进行分类。Zhang等人取了问句句子的ngram特征,生成分类器对问句进行分类,也有学者使用朴素贝叶斯分类方法,根据TFID方式抽取问句的特征,对问句进行分类。机器学习的方式是进一步的发展产生的,在大量数据训练的条件下,通过生成决策树,对数据进行分类。随着神经网络得发展,神经网络在问题分类中的效果越来越明显,对问句分类产生了很大的影响。通过多层的卷积,可以做到对训练数据的不断挖掘,从而达到更好的效果。其中Tang等人利用卷积神经网络和循环神经网络对实现了问题的情感分类。也有学者余本功提出了基于MAC_LSTM神经网络的方式,对问题分类进行了探索,也有学者使用基于混合神经网络的问题分类方法,将多种网络的优点集合在一起。
1.2.2 相似度计算的国内外研究状况
相似度计算的方式有很多,但是根据原理主要分为四种,分别是基于字符串、基于语料库、基于世界知识以及其他方法。其中基于字符串,就是字符匹配,在计算时,只要词语字符相同,则认为两个句子是相似的,因此也俗称词语相似度方法。基于语料库的方法,则以各种神经网络的研究为主,通过深度学习的方式,完成相似度检测,比如有学者就是基于卷积神经网络的方法,研究了中文句子相似度计算。基于世界知识的方法,则是通过研究句子的语义来判断相似度,也已经有很多成熟的方法,如基于知网的计算方法。同样也有学者对其做出了改进,如张小川,于旭庭,张宜浩等人提出了一种改进的基于知网的词语语义相似度算法。基于同义词词林的方法,也是大家争相使用的方法。当计算方式既不依赖字符串也不依赖语义判断时,就将此方法划分至其他方法,比如有通过句法分析或者通过混合方法,对问句进行分析,进而判断句子的相似度,这也是对其他三种方法的综合使用。
1.3 研究的目的和内容
1.3.1 研究目的
问题的分类在数据的处理中有着尤为重要的作用,比较常见的就是人工分类,而人工分类既需要人力又需要物力,还需要大量的时间资源,异常繁琐,要是可以通过计算机技术实现问题的自动分类,则会节省大量的资源,也可以快速、高效的满足用户的需求。问句间的相似度计算,同样也是问答系统中重要的一个环节,本文旨在研究能够兼顾时间开销和准确率的计算方法,可以快速在数据库中寻找到我们需要的问句,为马铃薯问答系统提供一个时间开销短,准确率高的方法。
原文链接:http://www.jxszl.com/jsj/jsjkxyjs/605760.html
最新推荐
热门阅读