百迈客农学—结题报告讲解

默认教学计划
7554人加入学习
(1人评价)
价格 免费
教学计划
承诺服务
  • 无参组装原理及组装方式的选择

1、组装软件:Trinity(软件相关文章)

2、reads 双端分析 150bp 

图1 组装图 

图2 具体组装过程

无Contig数据,提供转录本数据、Unigene数据

3、文件名:Final-Transcript、Final-Unigene

Final-Transcript转录本文件:Fasta文件——EditPlus软件打开

转录本命名方式:c49888.graph_c0_seq1 

c49888.graph:编号

c0:Component (片段集合)

c49888.graph_c0 类似于基因编号

seq1:前缀一样 seq不一样 指不同转录本来自同一个Unigene基因同一个Component

Final-Unigene:Fasta文件——EditPlus软件打开

一个基因有多个转录本,外显子差异,通常选择最长转录本序列代表Unigene基因序列

4、组装结果统计表格

注意Unigene基因数量多少,数量过多,拼接结果差(常见作物正常基因数量2-3万,拼接的话6-9万结果不错)

N50:计算方式,所有序列计算全长,N50越大说明拼接长片段多

5、无参/有参区别

a.无参适用范围广

b.软件分析依赖算法,存在误差错误,对于相似基因无法辨别装成一个基因。

c.基因表达量较低,会把较长基因装断,成俩个较短基因

d.无法判断是否污染,对分析结果影响大

6、组装结果不好,如何优化

如果200-300bp数据较多,其可靠性低,如果不进行定量,可以过滤掉。

定量后,表达量低,无read支持转录本,可丢掉。

7、组装方式:合并组装/分组组装

合并组装:同一个物种建议合并组装

分组组装:特殊需求,一个物种的两个亚种,一个植株的不同组织部位。只有最长转录本,对定量结果有一定影响。

两个物种做两个无参组装再进行比对。

  • CDS预测

结果文件:BMK_5_Unigene_Structure——CDS

best:筛选出最好的蛋白序列,但不一定是最完整。文件夹中:

cds-序列文件:ORF:5prime_partial 无起始密码子/complete完整的/interal 中断的,既无起始密码子也无终止密码子/3prime_partial 无终止密码子

pep-翻译的蛋白序列

gff-关于结构的定义

基因编号是软件输入顺序

complete:在best中提取的 预测的CDS结果中有明确的起始密码子和终止密码子

Transdecoder软件预测

正向预测三次,每隔一个碱基预测一次,反向也是。

(NCBI可以提交转录本数据预测CDS)

  • Unigene功能注释

 Blastx蛋白序列比对NR,Swissprot,COG,KOG,eggNOG,KEGG,Pfam

百迈克筛选条件:evalue<1e-5

blast2go软件:GO

参考NCBI数据关系,关联出GO结果

注释结果文件:BMK_4_Unigene_Anno

All_Database_annotation:筛选基因常用表格

NR注释:比对来源物种图

可以只注释一个物种:例如把蛋白序列只以金银忍冬注释

  • 定量及相关性分析

 定量软件:RSEM 针对转录本进行定量,累加到Unigene。

判断是否表达可参考文献设定标准。FKPM<1/5/10

样品间相关性评估:皮尔逊相关系数r^2>0.8 认为相关性比较好

  • 差异分析及差异基因富集分析

差异分析软件:有生物学重复:DEASEQ2,DESeq,edgeR

筛选条件:FC(log2FC),FDR(PValue) 

差异基因功能富集:GO,KEGG

  • 基因检索方法

寻找目标基因 :根据已知的基因名,在功能注释中进行检索

差异分析结果中找关键基因:根据差异基因的功能富集结果(GO/KEGG),找关键基因。筛选q值 <0.01/0.05

[展开全文]

pfam-预测功能域的db,可以预测家族。

 

[展开全文]

一、序列比对和转录本的拼接

 

[展开全文]

 1 如果没有参考基因组只能把所有数据放在一起,利用软件进行序列拼接。

   有参考基因组的话建议优先使用参考基因组去进行分析。 

2怎么选择参考基因组去分析

通过比对去测试。之前用的是TopHat2,现在用的是HISAT2.  HISAT2就是把我们测序的Read直接跟基因组进行比对。允许一定的错废数或是允许一定的比对质量。通过筛选以后我们就会得到有多少Read比对到了基因组上有多少Read没有比对到基因组上。这个结果是后面做分析的一个主要的基础。 

3比对效率就是Mapped Read占CLean Reads的百分比,是转录组数据利用率的最直接体现。

看结果好不好是不要首先去看差异基因,我们首先要看的就是比对效率。 比对效率能直接告诉我们测序的样品和取得的参考基因组的一个匹配程度,同时也直接反应了我们这个数据的利用率。 比对效率越高越好,越高表示我们测序的样品跟参考基因组的匹对度是越高的。利用率也是越高。如果没有比对上基因组的这些序列我们就直接把它丢掉不会再进行任何的操作了。因为这段部分没有比对上基因组的可能是些杂质序列。还可能是测序质量比较低,基因组差别比较大的序列。例如这个是模式物种拟南芥的比对效率是97%,水稻高粱这些常见的物种比对效率差不多能达到80%以上。对于研究比较少的物种比对效率就会比较低,大概百分之六七十。  

4一般我们看基因组是不是能用一般是以百分之六十 这个标准来看我们的基因组是不是能用。比对效率能直接反应我们数据的利用率,我们达到百分之六十的话说明我们有百分之六十的。。。read 可以直接使用,就是说我们可以用到测序得到了大部分数据的一个信息可以直接去进行使用。而会丢掉一些比较少的一部分。如果是小于百分之六十,那么数据的利用率就相对来说很低了。就会丢失很大一部分信息。这种情况下要么就更换一个基因组,找一个跟它更匹配的基因组。要么就考虑是不是准备做无参的。因为无参在做的时候不会丢掉任何Read信息。他会把所有的信息放到一起去用。做有参时尽量选择同一个物种,不要跨物种选择。

5比对效率好的话,后面分析的基础我们是有保障的,比对效率很差的话,我们就要考虑,后面的分析结果我们是不是能接受。不能接受的话我们建议换参考基因组或是换分析的策略。

Uniq Mapped Reads 唯一比对

Multiple Map Reads 多比对(常规物种在基因组上是有一个多拷贝的现象存在的,不同的基因会在基因组的不同地方会有分布,所以多比对的话实际上是有一部分对多拷贝的基因会体现再这里,但是这个比例一般都不会很高。)

Reads Map to +

Reads Map to -

对于 正向负向主要是针对于跟转录方向是否一致。我们普通的二代真核组测序采用的是...特异的建库,所以我们我们的结果都是1:1的这种结果。

6 首先我们需要注意的问题,就是关于基因组的选择以及基因的比对效率是否能满足我们分析的结果,比对完了后我们就把二代数据与基因组进行比对,比对完后我们就把数据转换成了在基因的位置上的信息。

  • 7软件在定量之前会 参考比对结果先对转录本进行一个拼接。无参拼接很正常,把所有的转录组数据放在一起拼接。 有参也要进行拼接的原因:因为我们一般的话一个基因组做出来以后我们会使用软件对这个基因组的基因去进行一个预测。这个预测对分析比较多的物种的话,基因的注释信息比较完善。这里的注释信息是指在基因组配套的那个GFF文件中,它针对于基因的一个定义,就是告诉我们在基因组的哪一段哪一段是一个基因,哪一段到哪一段是个外显子,哪一段是CDS区,这样的一个信息,研究比较多的物种这个信息相对来说是比较完善的,它可能得到我们某个基因可能有几个转录本。对于某个研究不是很多的物种或是刚刚做出来的物种,他们通过软件预测的时候基本上一个基因就得到一个转录本。常规物种来说一个基因大部分都有多个转录本。大部分生物都是高外显子的,他们通过外显子的不同连接的话可能会产生不同的转录本。不同转录本都会转录出来,但是我们在这个很多物种中得到的一个基因就一个转录本,在定量的时候就可能会 把一些跟这个转录本不同的定量结果体现不出来。所以在定量之前参考比对的结果去进行一个拼接。  通过算法这样的一个方式得到每个基因他的多个转录本这样一个结构,后面根据这个结构对转录本进行一个定量。

这里的拼接跟无参拼接有什么差别呢?

答:因为无参拼接没有任何的参考序列在这里他是把所有的序列合并在一起,然后把他打成一个15个Kmol的片段库然后去进行一个早期中最深的一个片段,做为一个中心然后进行延申,然后去进行构图,解图。得到转录本以及基因的一个对应关系。

有参,有“参考基因组”作为参考序列,那么我们在做拼接时更有针对性一些。把比对位置在一个小区域里的read拿出来后进行拼接,有参拼接是考虑位置信息的一个拼接它的拼接相对于无参来说更有针对性,无参可能把相似度很高的不同基因拼接到一块去。所以说有参拼接相对于无参拼接更有针对性。

测转录组的时候,是测转录出来的mRNa, mRNa 在基因组上实际都属于外显子的区域。那么我们比对的时候结果绝对是外显子的区域占了绝大部分。另外两部分一个是基因的间区,另一个是内含子区域。这两部分一般都会占一定的比例。其中内含子区域是因为我们的基因组的基因定义的信息并不是很全,当我们在可变剪切分析的时候可能会有一些可变剪切类型的内含子保留,内含子保留的那部分转录本被转录出来后那么它比对出来的Reads就在内含子上, 这内含子肯定是有一部分内容的。基因间区,可能基因组得基因在预测的时候预测的不是那么完善,基因组做完后我们会使用的软件来进行预测,根据结构来预测。一般都会给你一个预测的可信度,会发布预测结果比较高的部分,比较低的部分可能不会发布,软件认为比较高的部分并不能把所有的基因都囊括进去,我们在分析的时候的转录组是实际转录出来的那些,所以间区要么是没预测出来的那些基因,要么是非编码的基因等都可以转录出来,在间区中,间区是有部分比例的reads存在的,或者是一些新的基因,或着是位于基因间区的非编码的一些基因,常规物种,间区和内含子区间都不会太大,但有些组织,比如生殖细胞内的一些组织的一些样品他们的基因间区可能会比较大一些(可能是生殖细胞中有大量的非编码的基因被转录出来,所以会导致基因间区比较多一些,间区越多,意味着我们后面鉴定到的新基因数量越多)。

统计Mapped reads在指定的参考基因组不同区域(外显子,内含子和基因间区)的数目,绘制基因组不同区域上个样品Mapped Reads的分布图,如下:

Exon(外显子)

Intergenic(内含子)

Intron(基因间区)

Mapped Reads :比对到参考基因组上的Reads数目及在clean Reads中占大的百分比。

序列比对和转录组拼接是有参转录组在分析时候的一个基础,一个是比对效率的问题,数据是不是大部分能够利用,基因组与我们的样品是不是匹配,另外一个是关于转录本的拼接,这拼接就直接用我们定量的结果,因为定量是针对转录本去进行定量的。由于转录组拼接是软件自身带的一种算法去拼接的,准确性相对来说是比较差的,所以说我们在分析结果中并没有提供软件拼接出来的转录本的信息,所以我们在用的时候还是以基因组它本身提供的这个转录本号来使用,如果对于新转录本,不同的转录本有需要的可以去做三代全长转录组,一般任何涉及到拼接的,算法涉及到拼接的,里面或多或少有些错误存在,三代全长转录组是不需要拼接的,相对于二代拼接的结果,准确性还是很高的。

 

二新基因的鉴定 

新基因发掘的基础就是我们转录本的拼接,软件在拼接的时候是不考虑这个基因是否被预测了,会直接针对于比对的位置去进行拼接,拼接完了后把拼接结果跟我们基因组本身提供的基因的一个位置去进行比较,如果我们拼接出来的转录本它跟基因组本身预测的基因位置是重叠的,那么我们认为拼接出来的基因是我们已知基因的多个转录本。当然我们拼接结果中会发现有一部分拼接出来的转录本或着说基因它是位于基因组预测的一个基因间区,我们基因组本身在预测的时候认为这一段可能没有基因,但我们在做的时候,转录组在测序测到有转录出来有表达,所以这部分基因有可能是一个新的基因。

新基因的概念:针对于我们分析当时用到的基因组的Gff文件,是记录基因结构的文件,针对于这个文件来说是个新得基因,但是针对于NCBI 这种收录所有信息的数据库来说可能不是新基因。

怎么判断是新基因:

1我们软件拼接出来的转录本或是基因位于基因的间区,这是判断的第一个标准,跟基因组本身预测的信息没有任何重叠的,这部分基因首先就认为它可能就是潜在的一个新基因。

2大致过滤:

由于我们常见的物种都是一些多外显子的物种,所以我们在做的时候都尽量把些只有一个外显子的过滤掉,保留有两个或两个以上外显子的序列,就认为它更可能是新基因。同时我们也对它是否有编码潜能做一个初略的判断。这个判断就是我们会对它进行编码区的一个预测,然后把预测出来的编码区,潜在的一个Orf它的logo(能)翻译的蛋白小于50个氨基酸这种序列把它过滤掉,剩下来的序列我们就认为它可能是一个能编码蛋白的一个基因,位于基因间区的,有两个或两个以上外显子的,同时有可能去编码蛋白的这部分转录本我们就可以作为一个新的基因。这就是我们新基因的一个结果。

3提供结果的文件是:BMk2NEWNene -Arabidopsis_thaliana.gene_final.filtered.gff—— 这是经过筛选的文件,筛选过外显子,筛过蛋白的一个信息,这个结果就是筛选后的一个结果。

文件内容

Seq-ID(新基因位于染色体的编号,位置信息的编号)

Source (信息的来源,我们是用stringTie 这个软件拼接的,信息的来源)

Type(第三列表示DE这个结构表示的是一个什么类型gene,mRNA,exon,CDS等映射出来新基因在基因组上这个区域的的一个类型。)

stare end (第四列第五列的数字 代表了它在染色体上或是说stiefor序列上面的一个起始位置和一个终止位置就是这个区域,如果是基因的话代表我们基因在这个区域就是从起始位置到终止位置这一段的DNa就是基因的这个区域)

第六列一般来说都是一个点它是常用的一些其他信息比如说打分呀什么的都是用这样的一个标注如果没有的话都是用点来标注。

第七列 代表 结构,在基因组上链的方向,链的位置“-”代表在反义链上,“+”代表在正义链上。

第八列 代表的信息是个移码信息针对于CDS(CDS是真正转录的区域)会有这个信息,其他的结构包括 外显子呀是没有移码信息的。CDS有这个信息是因为外显子断裂的点并不一定正好在编码区,可能在密码子的第一位第二位不在第三位,在这里会有外显子边界,在这里会记录CDS区移码的一个信息,如果没有的话就用点来表示。我们的外显子有边界的话不会考虑我们编码刚好到这里是一个氨基酸。如果我们外显子的边界刚好是密码子的一个中间的话这里的cds如果我们直接把序列拿出来翻译的时候需要做一个移码处理的,这里只针对CDS有移码信息的话会有数字来进行表示,如果没有的话,或是没有记录的话直接用点来表示。

第9列就是一些结构的ID的命名等信息。它可以有很多信息用分号隔开,最常用的就是基因命名的信息,这里的命名就是用ID去命名,针对于mRNa 告诉我们这断的结构,是 一个什么样的类型,它的名字是什么,不同的结构之间又有从属关系就像mRNA,它的ID就是mRNA的ID,它的Perent就是它上面的基因,所以它就可以通过从属关系把所有结构进行一个串联。

结论:这个文件就是记录了我们所有预测出来筛选过的新基因的一个信息,这里我们可以看到一个基因会有很多个mRNA存在 ,一个RNA可以有很多个外显子,单个外显子的已经被丢掉了。这就是新基因预测的一个结果。

(Arabidopsis-thaliana.nevGene.longest-transcript.fa)序列,新基因的最长转录本的序列。按我们通常说的惯例。一个基因会有多i个转录本,但是我们再说某某基因的时候,或是某某基因的序列的时候,一般来说都是用它所包括的转录本中最长的那个转录本作为基因的一个代表,虽然说这个最长的转录本不一定包含这个基因的所有外显子和信息,但是它包括的信息相对来说是最多的,因此 我们再说某某基因的时候我们通常说他的序列一般都是指它的最长转录本的一个序列

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

[展开全文]

比对效率,水稻>80%,其他应>60%。日本晴和9311比对效率>80%。

新基因可以用序列在ncbi上比对,没有的才是真正新基因。判断标准:位于基因间区;有两个或两个以上外显子,大 于50个aa。

[展开全文]

样品表达量总体分布图

[展开全文]

碱基错误率

lncRNA 和sRNA文库

唯一比对到参考基因组,之比对到一个位置

比对分布情况,上面是正链上的深度,中间比对补上

是着丝粒的存在  

文库评估::reads百分比 匹配到一个基因

reads百分比 基因比例 纵坐标

大部分样品有相似的表达模式。

biaodaliangxiangguangxing表达量相关性

cosmic 癌基因集相关注释数据库

 

[展开全文]

全转录组数据分析包括Ink RNA、mRNA、mic RNA、c RNA

[展开全文]

分析4种RNA linkRNA mRNA circRNA miRNA 


 

[展开全文]

授课教师

Biocloud

课程特色

视频(19)