水稻表型组学知识图谱中关系抽取研究【字数:18191】
目录
摘 要 III
关键词 III
ABSTRACT IV
KEY WORDS IV
引言 1
1绪论 2
1.1知识图谱 2
1.2关系抽取 2
1.2.1传统关系抽取方法 2
1.2.2基于深度学习的关系抽取方法 3
1.3 研究任务 3
2 相关理论基础 4
2.1向量化 4
2.1.1词向量 4
2.1.2位置向量 4
2.1.3 BERT向量化 4
2.2关系抽取模型 5
2.2.1卷积神经网络 5
2.2.2分段卷积神经网络 7
2.2.3 BERT 8
3研究设计与实现 12
3.1整体架构 12
3.2数据预处理 13
3.2.1数据获取 13
3.2.2数据分类 14
3.3向量化 15
3.3.1词向量 15
3.3.2位置向量 16
3.3.3段落向量 16
3.4关系抽取模型构建 16
3.5实体关系问答功能 17
3.5.1开源问答框架AnyQ 17
3.5.2 实现步骤 18
3.6 存储结构 19
3.6.1关系存储Neo4j 19
3.6.2用户信息存储Sqlite3 20
3.7基于Django的系统实现 20
3.7.1Django框架 20
3.7.2界面功能模块展示 21
3.7.3项目主界面 22
3.7.4实体关系查询 22
3.7.5实体关系抽取 23
3.7.6实体关系问答 24
3.7.7 注册登录 24
4结果分析 25
4.1 开发环境 25
4.1.1硬件环境 25
4.1.2软件环境 25
4.2算法性能评估指标 25 *51今日免费论文网|www.jxszl.com +Q: ¥351916072¥
4.3卷积神经网络CNN模型结果 26
4.3.1不同梯度下降算法的结果对比 27
4.3.2不同批大小的结果对比 27
4.4分段卷积神经网络PCNN模型结果 28
4.4.1不同梯度下降算法的结果对比 28
4.4.2不同批大小的结果对比 29
4.5 BERT模型结果 29
4.5.1不同梯度下降算法的结果对比 29
4.5.2不同批大小的结果对比 30
4.6三种模型对比 30
5总结与展望 32
致谢 32
参考文献 32
附录 35
水稻表型组学知识图谱中关系抽取研究
摘 要
植物表型组学通过对于生物的遗传信息以及内外各种表型数据进行分析和研究,对于水稻的生产以及研究有着重要的指导作用。知识图谱技术通过结构化描述数据中的概念、实体和关系等信息,已经在知识存储、搜索引擎等方面获得了广泛应用。关系抽取任务作为知识图谱中的关键任务和环节,可以抽取文本中的两个实体词之间的联系,在构建水稻表型组学知识库中发挥重要作用。本文首先对水稻表型实体关系进行分类与标注,研究基于植物本体论的分类方法,随后构建卷积神经网络、分段卷积神经网络以及BERT三种关系抽取模型来进行水稻表型关系抽取,基于AnyQ问答框架来实现关系问答功能。最后,完成了基于Django的具有关系查询、关系抽取、关系问答功能的可视化系统。在关系抽取模型对比中,BERT获得了更好的表现,达到了95.10%的精确率以及95.85%的F1值。本文旨在通过深度学习方法提升知识图谱的关系抽取能力,为构建一个高效的水稻表型组学知识图谱提供参考。
引言
植物表型的数据和研究分析是近年来研究的一个热点,其本质是对于植物的基因数据的三维时序表达结果,以及其地域分布特征和代际演进规律[1]。随着分子生物学以及基因研究的进一步深入,Schork[2]对于表型组学进行了定义,表型组学指利用生物的遗传基因组信息来对于生物的外部以及内部的表型数据进行研究的一门具有综合性的学科。植物表型组学不仅研究植物的外在形状,也研究其内部结构、物理和生化性质以及遗传信息。植物表型组学数据种类也从以往单一的文本发展成为了如今的文本、图像以及三维点云数据结合,亟需对其知识库建立有效的索引和检索方法[3]。
中国作为世界上产量最大以及消费最多的水稻种植国,人口和人均粮食消费的增长对于以水稻为主要粮食作物的我国农业提出了一系列的挑战,水稻的培育以及研究也是中国食品粮食安全战略的一部分内容[4]。作为重要作物的水稻,其表型组学研究是植物生物学的研究热点,水稻表型数据的高通量以及其高维且海量的数据特征对于数据的快速检索和知识的有效提取提出了更高的技术要求。
随着计算机处理能力的快速提高,人们对于大数据资源需要进行更为深入和全面的挖掘,知识图谱技术在这样的背景之下应运而生。知识图谱是一个具有结构化特征的语义知识库,使用符号的形式来描述数据中的实体以及之间的关系[5],它利用对于语义的抽取和分析,结合了数据科学、计算机工程等学科的前沿技术和方法,为处理大数据的有效检索和整理方面提供了有效的方法,在学科知识库的构建领域获得了研究人员的关注。
在知识图谱的构建任务中,实体间的相互关系是过程中不可缺少的一部分。关系抽取任务的研究目标是能够自动的对于两个实体和之间的联系所构成的三元组进行关系识别[6]。关系抽取是理解文本内容的重要方法,从而知识库能够通过不同的关系连接起独立的各个实体,形成整合性系统性的知识图谱构建,并且关系抽取能够将文本数据中的特征进行提取,提升到更高的层面[7]。在水稻知识图谱构建中,如何对于水稻表型组学实体之间的复杂关系进行区分关系到水稻表型组学知识库的构建。因此,水稻表型组学的关系抽取研究十分重要。
原文链接:http://www.jxszl.com/jsj/jsjkxyjs/605751.html
最新推荐
热门阅读