"景先生毕设|www.jxszl.com

[免费论文]RNA-Seq数据的植物LncRNA鉴定方法

2020-05-28 17:25编辑: www.jxszl.com景先生毕设
长链非编码RNA(Longnon-codingRNA,Ln-cRNA)是一类长度超过200nt的长链非编码RNA分子,是RNA聚合酶II转录的副产物,它可在多个层面上(表观遗传调控.转录调控以及转录后调控等)调控基因的表达[1-4].据统计,哺乳动物蛋白编码基因占总RNA的1%,而长链非编码RNA占 更多精彩就在: 51免费论文网|www.jxszl.com 
总RNA的比例可达4%~9%,这些长链非编码RNA现已成为继MicroRNA后的探究热点[2,5].目前发现LncRNA的序列保守性较低,相比编码蛋白基因具有较强的可塑性,进化速度快,且在基因组上的位置往往与其功能有一定的相关性[6-9].LncRNA的作用机制比较复杂,目前发现的LncRNA的作用机制包括:在蛋白编码基因上游启动子区发生转录,干扰下游基因的转录表达;抑制RNA聚合酶II活性.介导染色质重构或组蛋白修饰等,影响相关基因表达;与蛋白编码基因的mRNA结合,干扰mRNA的剪切成熟过程;与蛋白编码基因的mRNA结合,在Dicer酶作用下产生内源性的siRNA,从而调控相关基因的表达;LncRNA还可结合到特定蛋白质上调节相应蛋白的活性,通过结合到特定蛋白上,改变该蛋白的胞质定位[4,7-10].总体而言,LncRNA可通过表观遗传学调控.转录调控.转录后调控.蛋白活性调控等多种方式调控相关基因[4,7-10].目前,LncRNA的相关探究大多集中在人类和哺乳动物中.截至2013年7月1日,NONCODEv3.0非编码数据库中已收录73327条LncRNA,主要分布在人类(33831,占46.14%)和小鼠(37047,占50.52%)中[11].Cabili等利用RNA-seq技术测定人体24种细胞与组织中的RNA,结合已知的LncRNA数据,凭借序列.结构.转录.同源性等30个属性对LincRNA进行大规模鉴定,得到8195条LincRNA(Longintergenicnon-codingRNA)[12].同时发现Lin-cRNA在不同的组织有着差异表达,LincRNA还与其两旁的蛋白编码基因存在着共表达的关系[12].Brunner等完成了首个大型的癌症LncRNA表达谱剖析,对64个肿瘤样品高通量RNA-seq测序,在各种肿瘤类型之间找出差异表达的1065个LncRNA[13].Li等使用RNA-Seq首次系统地验证了鸡骨骼肌发育过程中的LncRNAs,证实了鸡基因组中281个新的基因组间LncRNAs,发现和蛋白编码基因相比,新证实的LncRNAs的保守性更差,但和随机非编码序列相比,这些LncRNAs较为保守[14].Pauli等对斑马鱼早期发育过程中的8个阶段进行时间序列的RNA-seq剖析,重新构建了28912个位点上的56535个转录本,除了覆盖大多数已表达的RefSeq转录本外,还找到数千个新的亚型和表达位点,定义了一系列(共1133条)在胚胎发育过程中表达的非编码多外显子转录本[15].较人类和哺乳动物中大量LnRNA的鉴定及其大量调控机制的功能解析相比,植物中LncRNA的探究则相对滞后[16].目前,在新建立的植物Ln-cRNA数据库PLncDB(PlantlongnoncodingRNAda-tabase)中,利用不同技术手段(ESTs.Tilingarray.RNA-Seq等)鉴定发现了13000多个拟南芥LncRNA[17].Swiezewski等在拟南芥冷处理的种子中发现一个LncRNA,命名为COLDAIR,COLDAIR在春化过程中的对重要开花抑制因子FLC的沉默起着重要的作用[16].此外,Boerner等在玉米中利用全长cDNA序列(flcDNA),采用生物信息学方法鉴定了1011的LncRNA,并对其进行了相关结构剖析及基因组定位[18].随着高通量测序和生物信息学的快速发展,RNA测序(RNA-seq)成为探究基因表达.调控网络和转录组剖析的重要技术手段[19].目前,利用RNA-Seq数据鉴定LncRNAs已逐渐成为代替传统微阵列.cDNA测序的重要技术手段.然而,相较于人类和哺乳动物,植物因其功能基因组学发展的落后性,造成现有的哺乳动物发展的LncRNA鉴定方法在植物中产生较高的假阳性.本探究结合植物基因组特点以及高通量RNA-Seq测序的优势,拟设计优化一套.并进一步对其进行全基因组定位,为后续功能机制探究奠定基础.1.材料方法1.1.玉米自交系B73顶端分生组织RNA-Seq数据从NCBISRA数据库(检索下载玉米B73顶端分生组织的RNA-Seq数据,编号分别为SRR424649和SRR424650.该数据是通过Illumina测序平台,长度为76bp的单端测序获得,碱基数约计2.35Gb.1.2.序列预清理B73顶端分生组织的RNA-Seq测序数据,首先通过NCBISRA数据库中的SRAToolkit软件转化产生碱基及质量值.随后,利用SolexaQA软件包对原始测序数据的质量(Q20,Phred-Score≥20即1%的错误率)和测序长度(L20,长度≥20bp)进行过滤[20].1.3.转录组重建采用基因组指导的参考性组装,从而获得转录本集合.清理后的B73顶端分生组织RNA-Seq数据通过Tophatv2.0.8[21-22]比对到参考基因组.随后,对那些没比对上的序列在重新比对之前清理到50nt长.利用Cufflinksv2.1.1程序[22]程序组装这些比对上的序列.在转录组组装时,用参考基因组序列信息与参考的基因注释集相结合的方法,减少因序列覆盖不足而造成的转录本不完整的情况,进而获得可靠的B73顶端分生组织转录本.1.4.Coding/non-coding编码预测对组装获得的B73顶端分生组织转录本进行编码能力区分及LncRNA鉴定与分类.主要是利用NCBI非冗余蛋白数据库(nr)和Pfam蛋白家族数据库,通过CPC程序[23]综合考虑ORF长度以及与已知蛋白的同源性来鉴定转录本是否编码,随后进一步过滤低表达转录本,从而获得候选的B73顶端分生组织LncRNA集合.1.5.基因组定位获得候选B73顶端分生组织LncRNA数据集后,进一步通过自行编写的Perl脚本程序从基因组比对结果中释放基因组定位信息,从而获得Ln-cRNA在全基因的分布情况,进一步解析其类型和相关的基因信息.1.6.同源比对剖析为了进一步明晰RNA-Seq数据预测LncRNA的可行性及可靠性,将玉米B73顶端分生组织全长cDNA序列(flcDNA)和RNA-Seq不同数据预测的LncRNA利用Blastn[24]程序做了同源性剖析.同源性剖析采用参数为E值≤1e-15,最小匹配碱基≥100bp,相似度≥80%.2.结果2.1.RNA-Seq数据预测植物LncRNA的流程设计结合RNA-Seq数据剖析方法以及植物基因组.转录组特点,优化了植物LncRNA的剖析策略,主要分为3个部分:①RNA-Seq序列的预处理.主要利用SolexaQA对低质量碱基和长度进行过滤;②转录组重建.目前的转录组重建方法主要有两类,一类是基因组指导的,另一类是不依赖于基因组的从头组装(denovoassembly).Denovo组装对测序深度.长度均有较大的依赖性,因此这里我们采用基因组指导的转录组重建(Genome-guidedtranscriptomere-construction)方法,主要通过Tophat2程序利用剪切方式比对,采用外显子优先的比对算法,利用已知的基因集信息作为参考,将测序Reads映射到基因组上,进一步构建转录本;③coding/non-coding编码鉴定.通过nr和Pfam蛋白数据库过滤具有编码能力的转录本后,利用CPC程序综合考虑ORF长度以及与已知蛋白的同源性来鉴定转录本编码能力,过滤低表达转录本,获得LncRNA集合.图1RNA-Seq数据预测植物LncRNA流程2.2.玉米B73顶端分生组织的RNA-Seq数据预测LncRNA为了考察上述流程的可行性和可靠性,我们利用玉米自交系B73顶端分生组织的RNA-Seq数据来预测LncRNA.选取的约2.35Gb测序碱基的B73illuminaRNA-Seq数据(登录号:SRR424649和SRR424650)清理后共28130060条序列,碱基数约2.1Gb,均长为72bp.利用Tophat2转录组比对程序将测序序列定位到玉米B73参考基因组(V2)上.28130060条测序Reads序列中,18297964(65.11%)条序列被特异地定位在B73参考基因组上,1693776(6.05%)条序列定位在多个位点,而8138320(28.93%)条序列则未能定位到参考基因组.随后,利用Cufflinks转录组组装程序,采用基因组指导性组装(Genome-guidedassembly)策略,结合B73的基因注释信息,组装共获得157058个转录本.通过FPKM表达量和长度过滤获得候选的43865个转录本,用于后续的编码鉴定.进一步通过CPC程序预测,综合考虑了转录本ORF大小以及与nr.Pfam蛋白数据库的序列同源性,来鉴定coding/non-coding编码能力.结果发现,6122(14.00%)转录本不具备编码能力,为非编码RNA(non-codingRNA),而37743(86.00%)转录本与已知的功能基因具有较高的同源性而被定义为编码RNA(codingRNA).因此,B73RNA-Seq数据共获得6122个长非编码转录本(LncRNA),平均长度为619bp(表1).同时,利用Cufflinks程序计算6122LncRNA的表达量(FPKM),结果显示Ln-cRNA总体表达量普遍较低(图2).图2玉米B73顶端分生组织中候选LncRNAFPKM表达量分布表1玉米B73LncRNA预测结果汇总2.3.玉米B73LncRNA的全基因组定位利用B73参考基因组和RNA-Seq比对信息,对上述预测的LncRNA进行了全基因组定位,揭示其LncRNA的在玉米染色体上的分布及邻近可能调控的基因信息.总体而言,6122个LncRNA中,6103(99.69%)定位在已知的染色体区域,19个(0.31%)定位未知区域.其中,2431个LncRNA定位在已注释的基因区域,而3691个LncRNA则定位在已注释的基因区域外.2.4.RNA-Seq与flcDNA预测玉米B73Ln-cRNA集合的同源剖析为了进一步考察RNA-Seq技术预测植物Ln-cRNA的可行性,将我们利用RNA-Seq预测的玉米B73的LncRNA集合与Boerner等利用flcD-NA预测的LncRNA[18]做了比较剖析(图3).两种途径发现的LncRNA通过同源比对剖析发现,flcDNA预测的B731011个LncRNA中,101个与RNA-Seq预测的B73LncRNA序列存在较高的相似性.未能比对上的910条序列,应用本探究设计的方法进行编码能力鉴定,结果Boerner等报道的688条序列[18]与目前报道的功能基因具有较高的同源性,因此应被鉴定为编码RNA(cod-ingRNA).这一结果证实,RNA-Seq数据预测LncRNA相较传统低通量测序数据具有较高的准确性及可靠性.图3RNA-Seq和flcDNA不同数据预测的LncRNA集合比较3.探讨利用生物信息学方法来鉴定筛选LncRNA是目前探究最为经济有效,同时也是主流的方法.在鉴定筛选LncRNA中,转录组重建和Coding/non-cod-ing识别是其中最为关键的两个部分.首先,转录组重建往往受序列读长.测序深度.文库大小等多个因素的影响.传统cDNASanger测序读长较长有助于组装,但是其通量低.测序错误率高以及组装常常产生嵌合体,从而会造成后续剖析的误差[25].RNA-Seq读长短,但其通量高.测序质量较高.基因覆盖度高,有助于获得全面的转录组信息,揭示转录本UTR长度.外显子边界定位.选择性剪切机制以及动态的表达调控机制.此外,双末端Paired-end测序方式,同时结合参考基因组信息,将极大有助于转录组的准确重建[25-26].本探究采用的参考基因组指导性组装,利用已知基因组注释信息,采用外显子优先算法有效保证了转录组的准确重建.另外,coding/noncoding编码能力鉴定则是关系到LncRNA能否发现的重要步骤.本探究采用综合性方法,利用CPC程序综合考虑ORF长度以及与已知蛋白的同源性,进而鉴定其编码能力,这一方法已广泛应用在人类.哺乳动物以及一些模式植物如拟南芥.玉米的LncRNA鉴定中[18,27-28].但该鉴定方法不可避免地受蛋白数据库大小的影响,蛋白数据库越大,收录的蛋白序列也越多,鉴定的LncRNA数目则越少.目前,Swissport数据库和NCBIRefSeq数据库是通过文献支持以及专家审阅的高质量非冗余蛋白数据库,收录的蛋白序列虽然少,但较为可靠.而NCBI的nr蛋白数据库则是目前收录蛋白序列最多的数据库,但其中包含大量机器翻译推测的蛋白序列,其准确性相对较低.因此,选用蛋白数据库需要根据试验自身的需求来调整.此外,植物基因组因其自身结构特点以及基因组学发展的滞后性,造成了不能简单套用人类和哺乳动物LncRNA的鉴定方法.人类和哺乳动物Ln-cRNA鉴定的流程大致可分3个步骤:①转录组重建;②过滤已知基因集,选取非基因集或者与已知基因集存在变异的转录本;③编码能力鉴定.然而,植物基因组学发展相对滞后,其注释基因集含有大量机器denovo从头预测的基因.因此,植物中的参考基因集并不能作为准确可靠的功能基因去过滤,而是需要重新评价或者仅作为参考基因定位数据.鉴于此,本探究充分结合了植物基因组特点以及高通量RNA-Seq测序数据的优势,通过生物信息学手段发展.优化了一套RNA-Seq数据的植物Ln-cRNA筛选及鉴定方法,为植物中鉴定筛选LncRNA提供重要的思路和方法.
原文链接:http://www.jxszl.com/lwqt/mflw/19591.html