基于迁移学习的学术评本情感分析研究【字数:17531】
目录
摘要 1
关键词 1
ABSTRACT 2
KEY WORDS 2
引言 3
1 国内外研究现状 3
2 方法介绍 5
2.1 文本表示方法 5
2.1.1 词袋模型(Bag of Words) 5
2.1.2 词频逆文档频率(TFIDF) 6
2.1.3 词嵌入模型(Word Embedding) 7
2.2 机器学习模型 8
2.2.1 逻辑回归(Logistic Regression) 8
2.2.2 支持向量机(Support Vector Machine) 9
2.3 深度学习模型 10
2.3.1 FastText 10
2.3.2 TextCNN 11
2.3.3 BiLSTM/GRU 12
2.4 迁移学习模型 15
2.4.1 BERT 15
2.4.2 ALBERT 17
2.4.3 RoBERTa 17
2.4.4 XLNet 18
3 实验数据准备 19
3.1 数据获取 19
3.2 数据分析与处理 21
4 实验及其结果分析 24
4.1 机器学习实验 24
4.2 深度学习实验 27
4.2.1 FastText模型 27
4.2.2 BiLSTM模型 27
4.2.3 TextCNN模型 28
4.3 迁移学习实验 29
4.3.1 BERT模型 29
4.3.2 ALBERT模型与RoBERTa模型 30
4.3.3 XLNet模型 31
5 实验总结与结论 32
6 总结与展望 33
致谢 33
参考文献 34
图21 FASTTEXT模型的结构 11
图22 TEXTCNN模型结构 11 *51今日免费论文网|www.51jrft.com +Q: ¥351916072$
图23 BIRNN模型结构 12
图24 LSTM模型结构 13
图25 GRU模型结构 14
图26 通过词向量生成查询、键、值向量 15
图27 BERT模型结构 16
图31 OPENREVIW网站中的ICLR会议论文链接 19
图32 ICLR2018会议论文列表 20
图33 利用CHROME开发者工具定位会议论文列表数据 20
图34 利用CHROME开发者工具定位特定会议论文评论 21
图35 论文与评论数目随年份变化情况 21
图36 评论打分分布情况 22
图37 评论长度分布情况 23
图38 评论包含句子数量分布情况 24
图41 迁移学习模型总体结构 29
表31 不同分数代表的含义 22
表41 BOWLR模型十折交叉结果 24
表42 BOWSVM模型十折交叉结果 25
表43 TFIDFLR模型十折交叉结果 25
表44 TFIDFSVM 模型十折交叉结果 25
表45 四种机器学习模型中位数 26
表46 深度学习模型实验结果 28
表47 BERT模型使用不同截断方法的结果 29
表48 BERTBASE模型与BERTLARGE模型结构对比 30
表49 ALBERT与ROBERTA模型实验结果 30
表49 XLNET模型实验结果 31
表410 与其他实验结果进行对比 32
表51 所有模型基于同一数据实验结果 32
基于迁移学习的学术评论文本情感分析
摘 要
情感分析是文本分类的重要分支之一。过去情感分析的文本对象主要集中在电影评论、商品评论等文本短小,情感突出的领域,对于一篇学术论文的评论情感倾向的研究却寥寥无几。学术论文的评论文本具有长度长,同时包含对文本的正面评价和负面评价两种内容的特点。以上特点使得分类对象是短文本的传统情感分类方法在学术评论文本上效果不佳。过去的研究者在学术评论文本情感分析方面,利用评论文本之外的信息提高分类的准确率,但此类方法的结构复杂,且对性能的提升有限。本文利用OpenReview网站上ICLR会议的会议论文评论文本和评委对论文的接受意见作为数据集,共收集了3023篇会议论文的9155篇评论。经过从机器学习模型到深度学习模型的多种模型结果对比,本文最终选择使用了迁移学习的方法,利用预训练的XLNetLARGE模型后接BiGRU单元对文本进行情感分析,最终取得了82.00%的正确率。实验证明迁移学习的方法可以取得比机器学习方法或深度学习方法更好的效果,XLNet预训练模型可以取得比其他预训练模型更好的效果,截取靠前的文本比截取靠后的文本作为特征输入能取得更好的效果。提升输入的文本长度也可以提升最终的准确率。
原文链接:http://www.jxszl.com/jsj/xxaq/606993.html