基于svm的软件语句分类研究【字数:9956】
目录
摘要 4
关键词 4
Abstract 4
Key words 4
一、研究目的和意义 5
二、相关研究 5
(一)特征选择方法 6
(二)基于采样的方法 6
(三)基于算法的方法 6
(四)集成方法 6
三、数据来源 7
四、实验设计 8
(一)特征选择 8
1.卡方统计 8
(1)传统的卡方统计 8
(2)改进的卡方统计 9
2.信息增益 10
(二)随机欠采样 10
(三)集成SVM 10
(四)过采样 12
(五)混合采样 12
五、结果 12
(一)评价指标 12
1.准确率(Accuracy) 12
2.查准率(Precision) 13
3.查全率(Recall) 13
4.F值(Fmeasure) 13
(二)结果分析 13
1.实验A 13
2.实验B 14
3.实验C 14
4.实验D 14
5.实验E 17
6.实验F 18
7.实验G 19
六、结论与展望 20
致谢 20
参考文献 21
图1 Ensemble SVM分类器训练过程 11
图2 Ensemble SVM结合难 *景先生毕设|www.jxszl.com +Q: &351916072&
例样本训练过程 11
图3 实验D中Ratio为1使用CHI特征选择方法实验结果 15
图4 实验D中Ratio为1使用IG特征选择方法实验结果 15
图5 实验D中Ratio为2使用CHI特征选择方法实验结果 16
图6 实验D中Ratio为2使用IG特征选择方法实验结果 16
表1 软件所在章节结构及其数量 7
表2 各类别句子分布情况 7
表3 混淆矩阵 12
表4 选取传统卡方统计选取特征词实验结果 13
表5 使用改进后的卡方统计方法选取特征词实验结果 16
表6 使用信息增益方法选取特征词实验结果 17
表7 train1和train2中最高F值对应实验结果 17
表8 train1和train2中最优结果进行CRF软件识别的实验结果 17
表9 train1中选取SVM识别结果进行CRF软件识别的实验结果 17
表10 集成SVM对负样本进行测试的实验结果 17
表11 集成SVM实验结果 18
表12 过采样实验结果 18
表13 混合采样实验结果 19
表14 各实验结果对比 19
基于支持向量机分类器的软件语句分类研究
引言
科学软件作为研究对象的兴起,反映在人们对科学软件定量研究的兴趣日益浓厚,为此科学软件的抽取成为一个可供研究的方向。本研究旨在基于支持向量机分类器从文献中区分软件语句和非软件语句,从而减少在利用CRF进行软件抽取时无意义句子的输入,提高识别性能。本文首先介绍了研究目的和意义,由于软件语句与非软件语句的分布不均衡,其次对不均衡数据集的处理方法方面进行了回顾,然后采取特征选择、随机欠采样和集成SVM三种方法对测试集进行了测试,最后对实验结果以及不足之处进行了阐述。
一、研究目的和意义
科学软件的发展推动了科学实验的进行以及科学论文的发表。然而,科学软件并不是公认的学术成果。为了更好的评价科学软件,首先需要做的就是将软件从科学文献中识别出来。目前,关于命名实体识别的抽取很多,但是针对科学软件的抽取却很少,因此本研究最初旨在通过条件随机场(CRF)进行软件命名实体的抽取,但是在实际实验过程中发现,软件在全文本数据中出现率极低,并且CRF的训练时间会随着数据量的增多而增加,大量无用语句的输入严重影响了识别效率。
为此,笔者提出利用SVM对软件语句进行分类,来区分软件语句和非软件语句,充分利用其作为二分类器的能力识别出包含软件的句子。由于软件语句和非软件语句分布的不均衡,导致支持向量机的识别效果变差。因此,本研究着重对SVM在类分布不均衡的数据集上的分类进行探讨,一方面,为提高支持向量机的分类效果,另一方面,希望能够在CRF识别软件中减少不必要语句的输入,提高其识别的性能,从而能够建立一套完整的科学软件的识别体系,弥补此类研究的空白,同时也为科学软件的评价提供依据。
二、相关研究
支持向量机(Support Vector Machine,SVM)是一种通过实例学习为对象分配标签的线性分类器[1]。SVM对于二值分类问题的适用性更高,并不适用于多分类问题[2]。它常用于模式识别、分类和回归分析,包括垃圾邮件分类[3]、漏油检测[4]、电话欺诈检测[5]、网络入侵检测等应用实例。
Zhu F.[2]等人提出将支持向量机(SVMS)和条件随机场(CRFs)相结合的方法去识别生物命名实体,使两者相辅相成。在混合过程中,他们使用支持向量机来区分生物术语和非生物术语,然后利用支持向量机作为二进位分类器的能力和CRFs的数据标记能力,在使用CRFs确定生物术语类型之前,充分利用支持向量机作为二进位分类器的能力。
原文链接:http://www.jxszl.com/jsj/xxaq/564011.html