基于深度学习的学术文本语义表示与检索研究【字数:11580】
目录
摘要3
关键词3
Abstract3
Key words3
一、 研究背景、基本概念及文献综述5
(一)研究背景5
(二)基本概念5
1. 文本语义表示5
2. 深度学习检索6
(三) 文献综述7
二、 基于深度学习的检索模型介绍7
(一) DSSM模型7
1. 输入层.8
2. 表示层.9
3. 匹配层9
4. 模型参数优化10
(二)CDSSM模型10
1. 输入层10
2. 表示层11
3. 匹配层与模型参数优化.12
三、 数据预处理12
(一)日志获取12
(二)数据清洗13
(三) HTML解析14
(四)数据合并14
四、 实验过程及结果分析15
(一) 检索模型构建15
(二) 评价指标16
(三) 模型训练与测试17
(四) 结果分析18
五、 总结19
致谢20
参考文献21
图1 DSSM 模型的框架图8
图2 DSSM模型的表示层9
图3 CDSSM模型具体流程10
图4 CDSSM模型的表示层11
图5 CDSSM模型的卷积层具体实现12
图6 MatchZoo模型 *景先生毕设|www.jxszl.com +Q: &351916072&
训练过程part118
图7 MatchZoo模型训练过程part218
表1 数据表transaction的结构及样例13
表2 数据表url_content的结构及样例13
表3 针对keyword字段的清洗类型14
表4 数据表url_content_parse1的结构14
表5 relation.sql的结构及样例15
表6 本实验检索模型的整体性能part 118
表7 本实验检索模型的整体性能part 219
基于深度学习的学术文本语义表示与检索研究
引言
学术文献一般是学术文献工作者学术研究的成果,而学术文本则是对文献中的文本进行提取汇总的结果。学者们需要通过学术文本来检索他们需要的信息,并对其加以使用或研究。近年来,随着学术文本资源的不断增多,许多学者利用学术文本的语料库进行研究,涉及到文本结构识别、命名实体识别等领域。而这些领域的研究,都涉及到了学术文本的语义问题。学术界一直在讨论如何准确有效地表达文本的语义。同时,学术界和业界也在考虑学术文本语义的应用场景,出现了文本检索和文本翻译等方向。总之,这些方向还是返回到文本的语义匹配上来。为此,设计更好的文本表示及匹配模型,可以优化和改进学术搜索引擎,提高学术文本的利用率。
研究背景、基本概念及文献综述
(一)研究背景
引言
(二)基本概念
为了便于读者更好地理解这篇文章,将会对“文本语义表示”、“深度学习检索”的概念做一个简要说明。
文本语义表示
我们知道,一般的“文本表示”不是将文本视为字符串的过程,而是将文本视为更便于数学计算的向量的过程。而“语义”可以简单地看作是数据在现实世界中所代表的概念的意义,以及这些意义之间的关系。在文本表示的基础上,“文本语义表示”是进一步处理向量意义和向量间关系的过程。本文根据技术发展的时间,将文本语义表示分为传统文本语义表示和深度学习下的文本语义表示两个部分,并阐述文本语义的具体表示过程。
传统的文本语义表示
传统的文本语义表示指的是在深度学习技术被研究出来之前,一些对文本进行语义表示的传统的方法。1970年,乔姆斯基[1]提出了一套解决语义问题的理论。他强调了语义规则在解释句子结构意义中的作用。他认为句子深层结构中的每一个词条都可以通过语义成分来进行分析。随后,斯巴克琼斯在一篇题为《关键词特殊性的统计解释》的论文中提出了IDF的相关概念及其在文献检索中的应用。虽然有人提出了布尔模型[2],但这种模型对文本的语义表示不明显,缺乏文档分级(rank)的概念。在此基础上,美国学者萨尔顿基于部分文本匹配原理,提出了一种向量空间模型[3](VSM),将文本内容的处理过程简化为向量空间中向量一系列计算,并用向量的余弦相似度表示语义相似度。但该模型不能够区分文本的语义模糊性与关联性。于是在20世纪80年代,杜马斯和贝里提出了一种基于VSM理论的潜在语义分析模型[4](Latent Semantic Analysis,LSA),它使用统计学的思想提取了词与文本之间某种潜在的语义结构,从而简化了文本向量,便于之后的计算操作。同时,萨尔顿还提出了TFIDF[5] (即词频逆文档频率矩阵)算法,在表示文本语义特征的时候会表现更佳。
1986年,机器学习重新进入了人们的视野之后,开始有了新的文本语义表示模型,比如词袋模型[6](BagofWords Model,BoW)。后来,LDA[7](Latent Dirichlet Allocation)使用了词袋模型的方法,将每一篇文本统计成一个词频的向量表示,从而将文本转化为易于计算的数字化信息。然而,词袋模型并没有考虑词与词之间的前后连接顺序,也为模型的效果提升提供了一个新的思路。
原文链接:http://www.jxszl.com/jsj/xxaq/564024.html