基于字的汉语组块深度学习识别模型构建研究【字数:10455】
目录
摘要 III
关键词 III
Abstract IV
引言
引言 1
一、研究综述 1
(一)汉语组块的提出 1
(二)汉语组块识别技术和方法 1
二、实验思路 3
(一)语料库的介绍与处理 3
(二)序列标注 5
(三)基于深度学习的自动识别方法 5
1.LSTM模型 5
2.BERT模型 7
(四)评价标准 9
三、实验设置与结果分析 9
(一)基于BiLSTM和BiLSTMCRF模型的实验过程 9
1.实验设置 9
2.结果分析 10
(二)基于BERT模型的实验过程 11
1.实验设置 11
2.结果分析 12
四、迁移应用 12
(一)数据迁移 12
(二)平台搭建 13
1.前端布局设计 13
2.后端搭建 14
五、结论与讨论 15
致谢 15
参考文献 16
图11 本课题的整体思路图 3
图21 示例句的句法树结构解析图 4
图22 LSTMs结构图 6
图23 BiLSTMCRF模型示意图 7
图24 Transformer基本结构 8
图25 BERT自动识别模型示意图 9
图41 迁移预测示例 13
图42 平台前端布局 14
图43 执行请求界面 14
图44 结果返回界面 15
表21 语料的定中结构嵌套情况 4
表31 BiLSTM模型实验参数 10
表32 BiLSTM和BiLSTMCRF识别模型十折交叉验证对比结果 10
表33 基于词的含词性特征与否的BiLSTMCRF识别模型十折交叉验证对比结果 11
表34 BERT实验参数 11
表35 BERT模型十折交叉验证结果 12 *51今日免费论文网|www.51jrft.com +Q: ¥351916072¥
基于字的汉语组块深度学习识别模型构建研究
摘 要
对语言知识的挖掘离不开句法分析,汉语组块识别是浅层句法分析的重要内容,是完整句法分析的基础。在清华汉语树库TCT的基础上,对定中结构的语块进行再定义与调整,建立新的训练预料。在对定中结构进行统计分析后,根据语料的特点和实验目的,取定中结构的最短边界作为基本原则确定组块,规范包含定中结构的序列。利用BiLSTM、BiLSTMCRF和BERT深度学习模型展开一系列对比实验,在合适的超参下进行十折交叉验证。实验表明,在BiLSTM模型的基础上,CRF层能够保证标签之间的顺序约束,分词和词性特征对提升识别效果具有正向作用。同时,BERT预训练模型在清华树库此种规模较小的语料具有更好的表现,最优结果的调和平均值为98.65%。为将实验结果应用在学术资源上,利用已构建的模型,针对中国知网截止到2017年的图书情报类CSSCI中的所有期刊的论文图片描述文字进行迁移预测,搭建网页平台实现自动识别。
RESEARCH ON THE CONSTRUCTION OF A DEEP LEARNING MODEL FOR RECOGNIZING CHINESE CHUNKS BASED ON CHINESE CHARACTERS
ABSTRACT
Knowledge mining depends on syntactic analysis. Chinese chunk recognition is an important part of shallow syntactic analysis which is the basis of complete syntactic analysis. Based on the Tsinghua Chinese Tree Bank (TCT), redefine and adjust the blocks of the modifierhead construction to establish new training corpus. After the statistical analysis of the modifierhead construction, according to the characteristics of the corpus and the purpose of the experiment, the shortest boundary of the modifierhead construction is taken as the basic principle to determine the block, and specify the sequence containing the modifierhead construction. Afterwards, use several deep learning models to carry out a series of comparative experiments, including BiLSTM, BiLSTMCRF and BERT. Under the appropriate superparameters, 10fold crossvalidations are carried out. Experiments show that, on the basis of the BiLSTM model, the CRF layer can ensure order constraints between tags, and word segmentation and partofspeech features have a positive effect on improving the recognition effect. At the same time, the BERT pretraining model has better performance in such a small corpus of Tsinghua Tree Bank, and the harmonic mean of the optimal result is 98.65%. In order to apply the experimental results to academic resources, by the way of building an automatic recognition platform, the established models are used to predict the migration of the description texts of the papers of all the journals, which belong to the library and information CSSCI in CNKI until 2017.
原文链接:http://www.jxszl.com/jsj/xxaq/606972.html