大数据环境下基因组数据的挖掘与分析算法研究
Key words: Big data,Data analysis,Clustering algorithm,Linear regression analysis,Data mining目录
摘要 I
Abstract II
第一章 绪论 1
1.1 课题的分析研究 1
1.1.1 课题的研究背景及提出原因 1
1.1.2 数据挖掘的基本理论以及算法概念 1
1.1.3 数据挖掘的现状和发展前景 2
第二章 数据分析与Rstudio介绍 3
2.1 R语言的特点介绍 3
2.2 Rstudio与数据统计建模的联系 4
2.3 生物医学简介 5
2.4 乳腺癌基因芯片数据表达值简介及研究意义 5
第三章 R语言中数据挖掘的研究理论分析 6
3.1在R语言中经典聚类算法的介绍 6
3.1
*51今日免费论文网|www.jxszl.com +Q: 3_5_1_9_1_6_0_7_2
.1 最短距离法 8
3.1.2 最长距离法 9
3.1.3 中间距离法 9
3.1.4 类平均法 10
3.2 kmeans算法 11
3.3线性回归分析法 13
第四章 数据算法研究结果分析比较以及应用 15
4.1 聚类算法结果图分析及应用 16
4.2 kmeans算法效果图分析及应用 19
4.3 线性回归算法功能图分析及应用 22
第五章 结论及展望 25
5.1 结论 26
5.2 展望 26
谢辞 26
参考文献 27
附录一 29
附录二 43
绪论
课题的分析研究
课题的研究背景及提出原因
随着大数据时代的到来,生物医学的兴起,各种数据处理的方法层出不穷,有效数据的挖掘以及相似度极高的数据的分类有了进一步的提升。而生物医学中数据在不同的时间段表现出其不同的特性,从而使得数据杂乱无章,没有规律的排列在一起,面对如此一个窘境,数据的算法分析显示出其强大的处理能力,结合R语言的代码开源性[1],很多算法可以简单有效的表现出来,使得数据直观明了的归类在一起,为下一步的研究提供了有代表性的数据和去除了无关痛楚的数据,例如机器误测的数据[2],某时间段不正常的表达值等。因此本课题就医学数据的挖掘及算法分析的测试进行了简单的研究,对部分的数据进行算法分析,然后对下一步的应用也简单的介绍。
数据挖掘的基本理论以及算法概念
有人说数据挖掘是一门交叉的学科,它可以对数据的获取应用能从简单的低层次的数值查询,提升到可以在大量数据中挖掘相关的知识,从而可以在数据应用中提供技术及理论的决策支持[3]。确实,数据挖掘就是从了无边际的模糊而且随机的海量的数据中,提取人们所不知道的隐藏的数据价值和信息知识,其中数据源的数据必须拥有真实性和代表性。算法简单来说就是运算方法。数据依据什么特征模型可以高速有效的访问或者提取出来,算法的分析和建立显得尤为重要,所以算法大概可以分为三个步骤,针对问题进行简单的分析,选用或者是构建算法,算法的实现。可以做简单的图像简单的显示出本课题的数据挖掘及算法分析之间的联系,如下:
图1.1 数据挖掘及算法分析之间的联系图
数据挖掘的现状和发展前景
当今时代的数据挖掘主要集中在通信电信网络数据和一些特俗的商业行业方面,如银行,农场等。也可以应用于当今的大热门电子商务之类的,例如淘宝、京东、亚马逊等,搜索对应的商品会出现对已购该商品的客户的评价。因此很多的企业和机构开始重视这门学识,开始为该职能开设工作岗位,无疑这是一个信号,引领了新一代的智能数据处理的潮流。可以说随着数据挖掘技术的不断发展和完善,越来越多的数据库和数据集得以有效的取用[4],并且数据的繁杂和随机分散性得以分析归类,有效节省储存的空间,将会被更多的用户采纳和接受,将更加智能的融入到企业商务管理系统中。
第二章 数据分析与Rstudio介绍
2.1 R语言的特点介绍
简单来说Rstudio是一个的开源性的软件系统,有着强悍的统计分析能力及强大的作图功能。同时Rstudio的涉及面比较广泛,有较为简单的编程语言,有着强大的开源性程序兼容性,可以调用其他的开源兼容的程序包等。因此Rstudio含有大量的简化了的函数程序可供调用学习,明显简化了很大一部分的编程工作。并且Rstudio是个免费的软件,可以随意使用,很多复杂的数据集的分析都采用Rstudio来运行,分析完成后,Rstudio只会显示出你想要的结果图片,不会大量出现分析过程所得到的图片,避免的软件电脑资源过多的情况。所以说Rstudio是本课题的灵活性可以充分的展示出来。
本课题采用的是R3.1.2版本,里面有丰富的例程介绍及一些经典算法的程序包,可以直接运用函数“help()”或者“?()”来查询相关的函数功能,就会得到相应的例程解析,方便学习使用:
图2.1 函数“help()”例程图
2.2 Rstudio与数据统计建模的联系
Rstudio是一种具有数学计算环境的统计软件,提供了很多用于统计的程序包,使得数据的展示分析环境更加具有弹性和互动性。很多可用于统计的计算工具和函数模型都集成在Rstudio中,用户只需要依据其需要选用相关的数据库和函数模型,通过调用该函数程序,就可以把数据交给Rstudio来灵活处理,甚至在相关的研究中诞生新的统计计算方法,扩展Rstudio中的算法程序,更加高效的分析和解决研究的问题。
很多的数学的概率事件中,有不少的统计模型,并且这些模型比较繁杂,其中的计算更是让望尘莫及,但是Rstudio很好的解决了计算复杂的问题。通过对数据描述性的分析,做出相关的图像如直方图等,了解数据的基本特征。通过运用Rstudio中的函数包,对数据进行相关的模型选取,回归分析,参数估计以及检验矫正的步骤使得数据的处理归类更加的显著。而统计建模是利用各种数学计
原文链接:http://www.jxszl.com/dzxx/txgc/48070.html
最新推荐
热门阅读