基于广义混合线性模型的二分类性状基因位点检测【字数:10296】
目录
摘 要 II
关键词 II
ABSTRACT III
KEY WORDS III
引言 1
1 材料与方法 3
1.1 遗传结构 3
1.2 方法 3
1.2.1 原假设下的Logistic混合模型求解方法 3
1.2.2 Logistic混合模型的Score统计量 4
1.2.3 基于子样本的子模型集成 4
1.2.4 通过非参数思想构造子样本的集成假设检验统计量 5
1.2.5 NGLMMS模型总结 6
1.3 模拟实验 6
1.3.1 模拟实验一:功效及时间对比 6
1.3.2 模拟实验二:受异常点影响程度 7
2 结果与分析 8
2.1 模拟实验一的结果 8
2.1.1 模拟实验一中功效的对比结果 8
2.1.2 模拟实验一中计算时间的对比结果 8
2.2 模拟实验二的结果 9
3 讨论 11
致谢 12
参考文献 13
附录A 实现模拟实验一和模拟实验二的函数说明 15
附录B NGLMMS拟合函数的说明(R语言代码) 15
基于广义混合线性模型的二分类性状基因位点检测
摘 要
在全基因组关联分析(GWAS)的研究中,筛选和鉴定出控制某些表型的单核苷酸多态性(SNP)是最为重要的任务之一。二分类表型数据是GWAS分析中常见的类型,其相较于连续型数据所携带的信息较少,且存在数据量大、显著性位点少、异方差性、家族关联性等问题,因此需要更深入的研究。为提高二分类表型数据的GWAS分析检测效率,本文提出了NGLMMS模型,该模型对于某一待检测遗传位点,从原样本中随机抽取子样本,在原假设下,利用Logistic混合模型拟合并计算其卡方统计量。重复抽样若干次后,基于非参数统计中的Wilcoxon检验方法,将所有卡方统计量进行集成,进而得到用于衡量该基因位点的遗传效应是否显著的p值。模拟实验证实,面对二分类表型数据,NGLMMS模型相对于部分当前较 *51今日免费论文网|www.51jrft.com +Q: @351916072@
流行的的方法,具有更好的基因检测功效,且在样本量很大时,它的计算效率更高。此外我们还发现,由于采取了随机子样本的操作,该模型还可以有效减弱实验样本中可能存在的异常样本带来的干扰。
引言
为了进一步提升二分类数据的检测功效,本文在前人的基础上进行了相关研究,提出了NGLMMS模型,该模型对于某一待检测遗传位点,从原样本中随机抽取子样本,在原假设下,用Logistic混合模型拟合并计算其卡方统计量。重复抽样若干次之后,基于非参数统计中的Wilcoxon检验方法,将所有卡方统计量进行集成,得到用于衡量该基因位点的遗传效应是否显著的值。同时,为了进一步提高模型的检测准确率,并避免不必要的计算从而达到加快速度的目的,我们还在算法设计中加入反复筛选及更新机制。
为了检验NGLMMS的表现,我们进行了模拟实验。从模拟实验的结果可以看出,面对二分类表型数据,NGLMMS模型相对于部分当前较流行的的方法,具有更好的基因检测功效,且在样本量很大的情况下,它的计算效率更高。此外在模拟实验中我们还发现,由于采取了随机子样本的操作,NGLMMS模型还可以有效减弱实验样本中可能存在的异常样本带来的干扰。具体地,我们共进行了两次模拟实验,在第一次模拟实验中我们设定了四种不同样本量的场景,即样本量为600、800、1000和1200,然后采用GMMAT、LM、Logistic和NGLMMS四种方法分别做显著性基因位点检测,发现NGLMMS始终能够展现出更好的检测功效(比其他三种方法功效最高的高出百分比分别为127%、127%、101%和64%)。此外,随着样本量的提高,NGLMMS能够在保持较高检测功效的情况下,所需要的计算时间增长幅度很少(近似线性),从而在大样本下消耗的时间少于GMMAT方法。在第二次模拟实验中,我们旨在考察不同模型面对样本中可能存在的由于记录错误、检测试剂失效等不可知原因,而掺杂有一定比例的异常样本时,检测功效受影响的程度。结果表明,GMMAT、LM和Logistic都会损失较大功效,且大样本下受异常点的影响更大,而NGLMMS则受异常点的影响很小。
在我们的模型NGLMMS中巧妙地使用了“集成多个子样本的”的思路,提高了Logistic混合模型在处理大样本情形下二分类型数据基因位点检测的速度。同时也有效得提高了检测功效,降低了异常样本对模型拟合的干扰。但子样本的提取过程中存在一定的随机性,为了寻找更加完善的技巧来加速模型的拟合和削弱异常点的影响,我们也可以继续从下面几个角度进行深入研究:使用某一固定的策略抽取子样本;采取可以预先找到剔除异常样本的方法,从而提前剔除;另外,我们还可以借鉴集成方法的提升算法如Adaboost的思路,以一定的手段来调整每次抽样时各样本的抽样概率,从而使得多次探索之后,异常样本点被抽到的概率降低,使模型的检测功效降低;此外,我们也可以研究是否能够从基于Cholesky分解的求逆运算或者原模型拟合算法PQL及AIREML本身来寻求加速的技巧。
致谢
参考文献
Nguyen, T., Huang, J.Z., Wu, Q. et al. Genomewide association data classification and SNPs selection using twostage qualitybased Random Forests[J]. BMC Genomics, 2015 16, S5.
原文链接:http://www.jxszl.com/jsj/sxtj/606734.html