[免费论文]RNA-Seq数据的植物LncRNA鉴定方法
总RNA的比例可达4%~9%,这些长链非编码RNA现已成为继MicroRNA后的探究热点[2,5].目前发现LncRNA的序列保守性较低,相比编码蛋白基因具有较强的可塑性,进化速度快,且在基因组上的位置往往与其功能有一定的相关性[6-9].LncRNA的作用机制比较复杂,目前发现的LncRNA的作用机制包括:在蛋白编码基因上游启动子区发生转录,干扰下游基因的转录表达;抑制RNA聚合酶II活性.介导染色质重构或组蛋白修饰等,影响相关基因表达;与蛋白编码基因的mRNA结合,干扰mRNA的剪切成熟过程;与蛋白编码基因的mRNA结合,在Dicer酶作用下产生内源性的siRNA,从而调控相关基因的表达;LncRNA还可结合到特定蛋白质上调节相应蛋白的活性,通过结合到特定蛋白上,改变该蛋白的胞质定位[4,7-10].总体而言,LncRNA可通过表观遗传学调控.转录调控.转录后调控.蛋白活性调控等多种方式调控相关基因[4,7-10].目前,LncRNA的相关探究大多集中在人类和哺乳动物中.截至2013年7月1日,NONCODEv3.0非编码数据库中已收录73327条LncRNA,主要分布在人类(33831,占46.14%)和小鼠(37047,占50.52%)中[11].Cabili等利用RNA-seq技术测定人体24种细胞与组织中的RNA,结合已知的LncRNA数据,凭借序列.结构.转录.同源性等30个属性对LincRNA进行大规模鉴定,得到8195条LincRNA(Longintergenicnon-codingRNA)[12].同时发现Lin-cRNA在不同的组织有着差异表达,LincRNA还与其两旁的蛋白编码基因存在着共表达的关系[12].Brunner等完成了首个大型的癌症LncRNA表达谱剖析,对64个肿瘤样品高通量RNA-seq测序,在各种肿瘤类型之间找出差异表达的1065个LncRNA[13].Li等使用RNA-Seq首次系统地验证了鸡骨骼肌发育过程中的LncRNAs,证实了鸡基因组中281个新的基因组间LncRNAs,发现和蛋白编码基因相比,新证实的LncRNAs的保守性更差,但和随机非编码序列相比,这些LncRNAs较为保守[14].Pauli等对斑马鱼早期发育过程中的8个阶段进行时间序列的RNA-seq剖析,重新构建了28912个位点上的56535个转录本,除了覆盖大多数已表达的RefSeq转录本外,还找到数千个新的亚型和表达位点,定义了一系列(共1133条)在胚胎发育过程中表达的非编码多外显子转录本[15].较人类和哺乳动物中大量LnRNA的鉴定及其大量调控机制的功能解析相比,植物中LncRNA的探究则相对滞后[16].目前,在新建立的植物Ln-cRNA数据库PLncDB(PlantlongnoncodingRNAda-tabase)中,利用不同技术手段(ESTs.Tilingarray.RNA-Seq等)鉴定发现了13000多个拟南芥LncRNA[17].Swiezewski等在拟南芥冷处理的种子中发现一个LncRNA,命名为COLDAIR,COLDAIR在春化过程中的对重要开花抑制因子FLC的沉默起着重要的作用[16].此外,Boerner等在玉米中利用全长cDNA序列(flcDNA),采用生物信息学方法鉴定了1011的LncRNA,并对其进行了相关结构剖析及基因组定位[18].随着高通量测序和生物信息学的快速发展,RNA测序(RNA-seq)成为探究基因表达.调控网络和转录组剖析的重要技术手段[19].目前,利用RNA-Seq数据鉴定LncRNAs已逐渐成为代替传统微阵列.cDNA测序的重要技术手段.然而,相较于人类和哺乳动物,植物因其功能基因组学发展的落后性,造成现有的哺乳动物发展的LncRNA鉴定方法在植物中产生较高的假阳性.本探究结合植物基因组特点以及高通量RNA-Seq测序的优势,拟设计优化一套.并进一步对其进行全基因组定位,为后续功能机制探究奠定基础.1.材料方法1.1.玉米自交系B73顶端分生组织RNA-Seq数据从NCBISRA数据库(检索下载玉米B73顶端分生组织的RNA-Seq数据,编号分别为SRR424649和SRR424650.该数据是通过Illumina测序平台,长度为76bp的单端测序获得,碱基数约计2.35Gb.1.2.序列预清理B73顶端分生组织的RNA-Seq测序数据,首先通过NCBISRA数据库中的SRAToolkit软件转化产生碱基及质量值.随后,利用SolexaQA软件包对原始测序数据的质量(Q20,Phred-Score≥20即1%的错误率)和测序长度(L20,长度≥20bp)进行过滤[20].1.3.转录组重建采用基因组指导的参考性组装,从而获得转录本集合.清理后的B73顶端分生组织RNA-Seq数据通过Tophatv2.0.8[21-22]比对到参考基因组.随后,对那些没比对上的序列在重新比对之前清理到50nt长.利用Cufflinksv2.1.1程序[22]程序组装这些比对上的序列.在转录组组装时,用参考基因组序列信息与参考的基因注释集相结合的方法,减少因序列覆盖不足而造成的转录本不完整的情况,进而获得可靠的B73顶端分生组织转录本.1.4.Coding/non-coding编码预测对组装获得的B73顶端分生组织转录本进行编码能力区分及LncRNA鉴定与分类.主要是利用NCBI非冗余蛋白数据库(nr)和Pfam蛋白家族数据库,通过CPC程序[23]综合考虑ORF长度以及与已知蛋白的同源性来鉴定转录本是否编码,随后进一步过滤低表达转录本,从而获得候选的B73顶端分生组织LncRNA集合.1.5.基因组定位获得候选B73顶端分生组织LncRNA数据集后,进一步通过自行编写的Perl脚本程序从基因组比对结果中释放基因组定位信息,从而获得Ln-cRNA在全基因的分布情况,进一步解析其类型和相关的基因信息.1.6.同源比对剖析为了进一步明晰RNA-Seq数据预测LncRNA的可行性及可靠性,将玉米B73顶端分生组织全长cDNA序列(flcDNA)和RNA-Seq不同数据预测的LncRNA利用Blastn[24]程序做了同源性剖析.同源性剖析采用参数为E值≤1e-15,最小匹配碱基≥100bp,相似度≥80%.2.结果2.1.RNA-Seq数据预测植物LncRNA的流程设计结合RNA-Seq数据剖析方法以及植物基因组.转录组特点,优化了植物LncRNA的剖析策略,主要分为3个部分:①RNA-Seq序列的预处理.主要利用SolexaQA对低质量碱基和长度进行过滤;②转录组重建.目前的转录组重建方法主要有两类,一类是基因组指导的,另一类是不依赖于基因组的从头组装(denovoassembly).Denovo组装对测序深度.长度均有较大的依赖性,因此这里我们采用基因组指导的转录组重建(Genome-guidedtranscriptomere-construction)方法,主要通过Tophat2程序利用剪切方式比对,采用外显子优先的比对算法,利用已知的基因集信息作为参考,将测序Reads映射到基因组上,进一步构建转录本;③coding/non-coding编码鉴定.通过nr和Pfam蛋白数据库过滤具有编码能力的转录本后,利用CPC程序综合考虑ORF长度以及与已知蛋白的同源性来鉴定转录本编码能力,过滤低表达转录本,获得LncRNA集合.
原文链接:http://www.jxszl.com/lwqt/mflw/19591.html