"景先生毕设|www.jxszl.com

基于bert模型的学术文献结构功能自动拆分【字数:10369】

2024-02-25 17:05编辑: www.jxszl.com景先生毕设
学术文献与一般的文章相比,结构更加严谨规范,逻辑清晰,层次分明,有利于进行结构化处理,因而学术文献的结构功能拆分对于不同的检索需求以及知识挖掘具有重要意义,有利于从不同的角度方便研究人员来查询相关领域的研究成果。由于存在大量不规则的文献结构标题,因而需要从文本内容入手进行识别。本文使用条件随机场模型与BERT模型对文献结构功能自动拆分作出了探索,实验结果表明,BERT模型的识别效果虽略低于条件随机场模型,但省略了复杂的人工特征采集过程,总体效果达到预期。
目录
一、 引言 3
二、 背景及相关研究 4
三、 模型介绍 5
(一) 条件随机场模型 5
(二) BERT模型 6
四、 实验过程 8
(一) 实验数据介绍、描述与预处理过程 8
(二) 实验流程 9
(三) 使用条件随机场的实验 11
1. 训练数据的预处理以及特征选择 11
2. 实验过程及结果 12
(四) 使用BERT模型的实验 12
(五) 实验结果分析 14
五、 结论 14
致谢 14
参考文献: 15
图 1 CRF的线性链结构 6
图 2 BERT模型的双向Transformer结构 7
图 3 Transformer模型结构 7
表 1 实验用全文数据的结构数目与其所含句子数目统计 8
表 2 五类功能结构中词频TOP10 8
表 3 五类功能结构中句子长度频率TOP10 9
图 4 使用条件随机场模型的实验流程 10
图 5 使用BERT模型的实验流程 10
表 4 不添加特征的部分训练文本 11
表 5 使用CRF模型的实验结果 12
图 6 Multihead自注意力机制示意图 13
表 6 使用BERT模型的实验结果 13
基于BERT模型的学术文献结构功能自动拆分
引言
引言
引言
针对这些不规则的文献结构标题给文本 *景先生毕设|www.jxszl.com +Q: &351916072
结构自动拆分带来的问题,只研究标题内容显然是不够的,还需要结合具体的文本内容进行分析。每一部分的文献内容具有不同的文本特征,可以从特征入手进行识别任务,这样就将文献的结构功能拆分转化为文本分类任务。因而,本文将使用谷歌推出的深度学习NLP模型BERT(Bidirectional Encoder Representations from Transformers)来进行实验。BERT基于注意力机制(Transformers)来训练双向语言模型,可用于问答系统、情感分析、垃圾邮件过滤、命名实体识别、文档聚类以及文本分类等NLP任务,已被多个实验证实性能超越以往的深度学习模型。在使用BERT的同时,实验也使用了机器学习模型条件随机场(CRF)进行对比实验,以比较两种模型的不同和性能。
本文的内容结构如下:第二部分介绍文本结构拆分以及文本分类任务的的研究背景以及相关的研究进展;第三部分将分别介绍BERT模型和条件随机场模型的原理与结构;第四部分介绍实验所用的数据、数据处理过程、特征的选择以及实验结果,并对实验结果进行错误分析;最后一部分对实验进行总结,探讨后续可改进的方向。
背景及相关研究
作为自然语言处理的基本任务,关于文本分类的相关研究非常多,成熟的方法也多种多样,从传统的TFIDF算法到各种机器学习模型均有应用,取得了不错的效果。随着硬件技术的提升,深度学习算法兴起,各类神经网络模型如CNN、RNN也被用于文本分类任务,比起传统的机器学习模型,深度学习模型能够更好的拟合训练文本,更精准的把握语言特征,且可以随着训练语料的不同进行调整,因而受到研究者们的青睐。
传统算法方面,张玉芳等[1]采用了TFIDF算法来制定文本特征,并对其中的逆文档频率算法(IDF)进行了改进,然后分别用KNN模型和遗传算法训练每个类别的文本分类器,最后得出改进TFIDF算法选取的特征结合遗传算法效果更优的结果,大致的调和平均值在70%85%之间。与张玉芳不同,张保富等[2]在使用TFIDF算法时,结合了各个类别之间以及每个类别内部的信息熵来调整TFIDF的权重,能更准确的反映出文本特征以及这些特征对分类的贡献。实验结果显示不同分类的效果较改进前均有不同程度的提升,证明了其有效性。崔建明等[3]优化了粒子群算法(PSO)并将其引入SVM分类模型中,来解决特征化后的文本向量存在的不平衡性,即分类器极易受到训练文本和参数的影响而产生过拟合,从而影响分类效果的问题。实验表明,用粒子群算法来选择SVM分类模型的最有参数并进行优化的方法是有效的,使得不同数据集的分类准确率提高了28个百分点。张志飞等[4]使用了隐含狄列克雷分类算法(Latent Dirichlet Allocation, LDA)来处理短文本分类问题,通过降低相同词权重,增加不同词的权重来表现文本特征,从而减少稀疏性对相似度的影响。实验比较了LDA与基于主题的相似性(TopicBased Similarity, TBS)算法和向量空间模型(Vector Space Model, VSM)的性能。结果表明,隐含狄列克雷模型的效果分别优于TBS和VSM约2.5和5个百分点,平均准确率都超过了80%。单丽莉等[5]在文本分类实验中则注重了对特征选择方法的研究与比较,先后对TFIDF、互信息、期望交叉熵、信息增益以及文本证据权五种算法进行了比较试验,结果表明期望交叉熵的效果最佳,TFIDF次之,而信息增益的效果远远低于其他算法。随后实验对这些算法进行了改进,使得其效果均有所提升。李荣陆等[6]使用了最大熵模型(Maximum Entropy model, ME)对中文文本进行分类,通过比较文本的特征选择、是否进行平滑处理以及和KNN、SVM等分类器的性能来进行比较实验,结果得出,分词的方法生成的文本特征效果要优于NGram方法,使用特征平滑的效果优于不使用平滑,与其他分类器相比,最大熵模型的效果并不逊色。

原文链接:http://www.jxszl.com/jsj/xxaq/564006.html