"景先生毕设|www.jxszl.com

水稻表型组学知识图谱系统研究与实现【字数:19061】

2024-02-25 17:01编辑: www.jxszl.com景先生毕设
随着水稻表型组学的发展,针对水稻表型组学领域数据进行分析、挖掘和综合应用具有重要意义,为整合水稻表型组学相关知识,探索影响水稻表型性状的相关因素,本文实现了水稻表型组学知识图谱系统。本文使用爬虫技术、分词及词性标注、文本预处理、文本分类算法等技术构建水稻表型知识图谱,使用图数据库进行数据存储,结合图论相关知识实现图操作,最终以网页形式实现知识图谱系统可视化呈现。系统实现了水稻表型组学知识资源整合及展示,实现了表型实体识别、实体分类、系统可视化呈现等功能。通过算法分析对比得出结论,TF-LSI文本预处理方法结合随机森林算法在本文使用的数据集上表现最优。
目录
摘要 1
关键词 1
Abstract 1
Key words 1
1 绪论 2
1.1 研究背景 2
1.2 国内外研究现状 2
1.2.1 国内研究现状 2
1.2.2 国外研究现状 3
1.3 本论文主要工作 3
2   RPKG系统设计 3
2.1 系统架构 3
2.2 水稻表型数据获取 4
2.2.1 数据获取流程 4
2.2.2 数据结构 5
2.3 分词及词性标注 6
2.3.1   THULAC的优点 6
2.3.2 分词及词性标注 7
2.4 水稻表型实体识别 7
2.4.1 技术路线 7
2.4.2 启发式规则 8
2.5 水稻表型实体人工分类 9
2.5.1 分类注解 9
2.5.2 手工标注 9
2.6 水稻表型实体机器分类 10
2.6.1 水稻表型实体机器分类过程 10
2.6.2 文本预处理 10
2.6.3 机器分类算法 13
2.7 关系提取与水稻表型知识图存储 14
2.7.1 关系提取 14
2.7.2 图存储 15
3   RPKG系统实现 16
3.1 开发环境 16
3.1.1 硬件环境 16 *51今日免费论文网|www.jxszl.com +Q: ^351916072

3.1.2 软件环境 16
3.2 RPKG系统可视化 16
3.2.1 系统可视化方法 16
3.2.2   RPKG系统功能流程图 16
3.2.3   RPKG系统主界面 17
3.2.4 实体识别 17
3.2.5 实体查询 18
3.2.6 关系查询 20
3.2.7 知识概览 21
4 结果分析 22
4.1 算法性能评估指标 22
4.2 支持向量机算法数据结果 23
4.2.1   TFLSI文本预处理方法 23
4.2.2   Skipgram文本预处理方法 23
4.3  K近邻算法数据结果 24
4.3.1   TFLSI文本预处理方法 24
4.3.2   Skipgram文本预处理方法 24
4.4 随机森林算法数据结果 25
4.4.1   TFLSI文本预处理方法 25
4.4.2   Skipgram文本预处理方法 25
4.5 数据对比与分析 26
4.5.1 不同文本预处理方法对比 26
4.5.2 不同分类算法对比 27
4.5.3 不同类别对比 28
致谢 30
参考文献 30
水稻表型组学知识图谱系统研究与实现
引言
引言
1 绪论
1.1 研究背景
大数据时代的到来,使得人工智能技术取得了飞跃性进展。同时,随着人工智能对大数据分析处理需求的增加,知识图谱得到越来越多的关注。知识图谱使用语义网络[1]进行知识表示,能够将实体、属性及其之间的关系以结构化的方式表达[2],使人类能够更好地理解复杂的数据信息,互联网海量数据信息能够更好地被管理和展现。知识图谱技术结合统计学、计算机科学、信息可视化等学科技术理论方法,以可视化[3]的图谱形式直观的展示领域的核心框架和历史沿革[2]。在大数据及机器学习的合心凝聚下,知识图谱技术的加入推动人工智能技术的加速发展[4]。
中国是世界上水稻产量最高和消费最多的国家,大部分人口均以稻米作为主要的粮食,因此水稻在我国农业经济中占据十分重要的位置,水稻生产及分配问题直接关系到我国的粮食安全问题。但近年来旱涝灾害的频繁发生,加上土地盐碱化、荒漠化的加剧[5],水稻产量与质量受到严峻挑战,我国粮食环境平衡将被打破。因此分析研究水稻生长发育过程,改善水稻品种,提高水稻产量与质量是亟待解决的关键问题之一。
植物生长是一个动态且复杂的过程,由复杂的环境因素及基因组因子的综合调控。丹麦遗传学家Wilhelm Johannsen认为,生物的表型特征是基因型和环境因素之间复杂调控共同表达的结果:基因型是生物表型表现的内在因素,环境是表型特征表现的外在因素[6]。不同环境下的相同植株生长会产生不同的外在表现型,不同基因组控制下的植株会有不同的生长方式[7]。基因对植物生长的影响是错综复杂的,有些基因作用于植株生长的各个生长发育时期,而有些则只在植物生长的特定生长发育时期才起作用。水稻作为一种典型的模式作物,基因组较小且生长周期较短,与我国许多重要粮食作物的基因组存在高度的相关性,因此对水稻基因组的研究成为植物学研究的重点对象之一。
20世纪90年代,随着基因组学和遗传组学研究的逐渐开展,美国生物统计学专家Nicholas Schork提出了表型组学的概念[8]。表型组学是一门基于生物基因组信息以研究不同环境条件下某一生物所有表型性状的学科[9]。植物表型组学的研究范围不仅仅局限于外观形态的研究[10,11],涉及根表型组学、种子表型组学、农艺表型组学、蛋白质组学、疾病表型组学和代谢组学等多个领域内容,涵盖生理学、生物学、遗传学、统计学、计算机科学、计量学等众多学科。因此,对于水稻表型组学的研究对于水稻产量与质量的发展具有重要的指导意义。

原文链接:http://www.jxszl.com/jsj/wljs/563990.html