"景先生毕设|www.jxszl.com

基于机器学习算法的海量遗传标记分析应用【字数:9371】

2024-11-03 10:15编辑: www.jxszl.com景先生毕设

目录
摘要 II
关键词 II
ABSTRACT III
KEY WORDS III
引言 1
1 绪论 1
1.1 研究背景与意义 1
1.2 研究现状与发展 1
1.3 主要研究内容 2
2 研究方法 2
2.1 惩罚logistic回归的模型介绍 2
2.1.1 logistic回归 2
2.1.2 Lasso回归、岭回归、ElasticNet回归 3
2.1.3 惩罚参数(的选择 3
2.2 惩罚回归的评价准则 4
2.3 惩罚回归的R实现 4
2.4 惩罚回归的优缺点 4
3 结果与分析 5
3.1 模拟实验设计 5
3.1.1 模拟设计1 5
3.1.2 模拟设计2 6
3.1.3 模拟设计3 7
3.1.4 总结 7
3.2 实例分析 7
3.2.1 数据描述 7
3.2.2 真实数据分析及结果 8
4 讨论 8
致谢 9
参考文献 9
附录 10
基于机器学习算法的海量遗传标记分析应用
摘要
随着计算机技术的飞速发展,机器学习算法逐渐成为生物医学研究中的重要算法,可以进行影响因素筛选、变量预测以及分类等。从海量遗传标记中筛选出重要变量是遗传学研究中的重要任务,而机器学习算法以其计算快、精度高的优势,近年来广泛应用于海量遗传标记的分析。本文介绍了常用的惩罚logistic回归:近似岭回归、ElasticNet以及Lasso(least absolutes shrinkage and selection operator),并用三组不同的模拟数据对各种方法进行评价。其中Lasso和ElasticNet表现相似,倾向于选择少的变量,误选率相对较低,而近似岭回归的全部变量选取成功率较高,同时也使相对多的无关变量进入了模型。本文采用植株的实际遗传标 *51今日免费论文网|www.51jrft.com +Q: #351916072
记数据,使用三种方法进行变量选择,根据模拟分析在不同的结果中做出选择,从而为植物遗传育种提供一定的理论依据。
引言
随着生物信息学以及信息科学的发展,遗传学的实际研究中提供了丰富的数据。而如何从不计其数的遗传标记中提取出与某疾病或者分类性状有关联的实用信息,成为了遗传学研究中的一大重点。对于海量遗传标记的研究,通常预计只有少数遗传标记与疾病或者特定性状有关,我们要做的就是筛选出这部分遗传标记。惩罚logistic回归方法,例如近似岭回归、ElasticNet以及Lasso(least absolutes shrinkage and selection operator),均可以用于海量遗传标记的变量选择。本文第一章对利用惩罚logistic回归方法分析海量遗传标记的研究的背景、意义、现状进行了简单的介绍,同时对本文的主要研究内容进行了概括;第二章对三种惩罚logistic回归方法进行了介绍并讨论评价其优劣的三种性质,同时给出了本文所采用的的三种惩罚回归方法的R语言实现;第三章通过对三组不同的模拟数据进行分析,从而对三种惩罚回归方法进行了评价,并且应用此三种方法对植株的实际基因表达数据进行分析,筛选出可能影响其16摄氏度下发芽天数的的遗传标记;第四章总结了本研究所得出的结论,并讨论了惩罚回归方法的适用性以及待优化之处。
1 绪论
1.1 研究背景与意义
随着计算机科学和生物技术的极速发展,产生了海量的遗传标记。遗传标记可应用于遗传图谱的构造以及基因定位,在遗传学发展中有着重要作用。在基于基因表达数据的遗传学问题中,往往涉及数以万计的遗传标记,要从其中提取出与疾病或是其他分类性状相关的遗传标记就变得极富有挑战性。为了在大批基因表达数据中获取可供参考的信息,派生了数据挖掘技术。其中,机器学习算法由于计算速度快、检测精度高,近年来得到了快速的发展。
机器学习算法中的回归方法通常用于统计分析,然而,当遗传标记的数量大于试验样本的数量或者遗传标记之间高度相关时,标准回归方法会变得不堪重负,它需要大量的计算,也将耗费大量的时间,难以实现最优化[15]。此时,惩罚回归方法提供了一个有吸引力的选择。目前,常用的惩罚回归方法有Lasso方法、岭回归方法、ElasticNet方法等。这些方法通过缩小变量的系数,将对性状影响很小或没有明显影响的遗传标记的系数推向零,降低有效自由度,从而在许多情况下进行模型选择。一些惩罚回归方法只是简单地减少了回归系数的大小,而另一些方法强制它们为零。在一些性状的影响标记分析中,我们期望只有少数遗传标记对所研究的性状有真正的影响。因此,通过使用惩罚,可以找到与特定性状最相关的遗传标记子集。
现实的基因数据研究中,样本的数量通常远小于遗传标记的个数。例如,在Golub T等[1]对于白血病的基因表达数据研究里,遗传标记个数有7219个,而数据集样本个数只有30几个。因此,研究中能恰当地使用惩罚回归方法进行变量选择,筛选出致使患白血病的基因,从而为白血病的防控和医治提供一定的理论支撑。这种惩罚回归方法同样适用于植物学领域,可以很好地筛选出与特定性状相关的遗传标记,从而为植物遗传学中的育种工作提供一定的理论依据。

原文链接:http://www.jxszl.com/jsj/sxtj/606739.html