1 如果没有参考基因组只能把所有数据放在一起,利用软件进行序列拼接。
有参考基因组的话建议优先使用参考基因组去进行分析。
2怎么选择参考基因组去分析
通过比对去测试。之前用的是TopHat2,现在用的是HISAT2. HISAT2就是把我们测序的Read直接跟基因组进行比对。允许一定的错废数或是允许一定的比对质量。通过筛选以后我们就会得到有多少Read比对到了基因组上有多少Read没有比对到基因组上。这个结果是后面做分析的一个主要的基础。
3比对效率就是Mapped Read占CLean Reads的百分比,是转录组数据利用率的最直接体现。
看结果好不好是不要首先去看差异基因,我们首先要看的就是比对效率。 比对效率能直接告诉我们测序的样品和取得的参考基因组的一个匹配程度,同时也直接反应了我们这个数据的利用率。 比对效率越高越好,越高表示我们测序的样品跟参考基因组的匹对度是越高的。利用率也是越高。如果没有比对上基因组的这些序列我们就直接把它丢掉不会再进行任何的操作了。因为这段部分没有比对上基因组的可能是些杂质序列。还可能是测序质量比较低,基因组差别比较大的序列。例如这个是模式物种拟南芥的比对效率是97%,水稻高粱这些常见的物种比对效率差不多能达到80%以上。对于研究比较少的物种比对效率就会比较低,大概百分之六七十。
4一般我们看基因组是不是能用一般是以百分之六十 这个标准来看我们的基因组是不是能用。比对效率能直接反应我们数据的利用率,我们达到百分之六十的话说明我们有百分之六十的。。。read 可以直接使用,就是说我们可以用到测序得到了大部分数据的一个信息可以直接去进行使用。而会丢掉一些比较少的一部分。如果是小于百分之六十,那么数据的利用率就相对来说很低了。就会丢失很大一部分信息。这种情况下要么就更换一个基因组,找一个跟它更匹配的基因组。要么就考虑是不是准备做无参的。因为无参在做的时候不会丢掉任何Read信息。他会把所有的信息放到一起去用。做有参时尽量选择同一个物种,不要跨物种选择。
5比对效率好的话,后面分析的基础我们是有保障的,比对效率很差的话,我们就要考虑,后面的分析结果我们是不是能接受。不能接受的话我们建议换参考基因组或是换分析的策略。
Uniq Mapped Reads 唯一比对
Multiple Map Reads 多比对(常规物种在基因组上是有一个多拷贝的现象存在的,不同的基因会在基因组的不同地方会有分布,所以多比对的话实际上是有一部分对多拷贝的基因会体现再这里,但是这个比例一般都不会很高。)
Reads Map to +
Reads Map to -
对于 正向负向主要是针对于跟转录方向是否一致。我们普通的二代真核组测序采用的是...特异的建库,所以我们我们的结果都是1:1的这种结果。
6 首先我们需要注意的问题,就是关于基因组的选择以及基因的比对效率是否能满足我们分析的结果,比对完了后我们就把二代数据与基因组进行比对,比对完后我们就把数据转换成了在基因的位置上的信息。
- 7软件在定量之前会 参考比对结果先对转录本进行一个拼接。无参拼接很正常,把所有的转录组数据放在一起拼接。 有参也要进行拼接的原因:因为我们一般的话一个基因组做出来以后我们会使用软件对这个基因组的基因去进行一个预测。这个预测对分析比较多的物种的话,基因的注释信息比较完善。这里的注释信息是指在基因组配套的那个GFF文件中,它针对于基因的一个定义,就是告诉我们在基因组的哪一段哪一段是一个基因,哪一段到哪一段是个外显子,哪一段是CDS区,这样的一个信息,研究比较多的物种这个信息相对来说是比较完善的,它可能得到我们某个基因可能有几个转录本。对于某个研究不是很多的物种或是刚刚做出来的物种,他们通过软件预测的时候基本上一个基因就得到一个转录本。常规物种来说一个基因大部分都有多个转录本。大部分生物都是高外显子的,他们通过外显子的不同连接的话可能会产生不同的转录本。不同转录本都会转录出来,但是我们在这个很多物种中得到的一个基因就一个转录本,在定量的时候就可能会 把一些跟这个转录本不同的定量结果体现不出来。所以在定量之前参考比对的结果去进行一个拼接。 通过算法这样的一个方式得到每个基因他的多个转录本这样一个结构,后面根据这个结构对转录本进行一个定量。
这里的拼接跟无参拼接有什么差别呢?
答:因为无参拼接没有任何的参考序列在这里他是把所有的序列合并在一起,然后把他打成一个15个Kmol的片段库然后去进行一个早期中最深的一个片段,做为一个中心然后进行延申,然后去进行构图,解图。得到转录本以及基因的一个对应关系。
有参,有“参考基因组”作为参考序列,那么我们在做拼接时更有针对性一些。把比对位置在一个小区域里的read拿出来后进行拼接,有参拼接是考虑位置信息的一个拼接它的拼接相对于无参来说更有针对性,无参可能把相似度很高的不同基因拼接到一块去。所以说有参拼接相对于无参拼接更有针对性。
测转录组的时候,是测转录出来的mRNa, mRNa 在基因组上实际都属于外显子的区域。那么我们比对的时候结果绝对是外显子的区域占了绝大部分。另外两部分一个是基因的间区,另一个是内含子区域。这两部分一般都会占一定的比例。其中内含子区域是因为我们的基因组的基因定义的信息并不是很全,当我们在可变剪切分析的时候可能会有一些可变剪切类型的内含子保留,内含子保留的那部分转录本被转录出来后那么它比对出来的Reads就在内含子上, 这内含子肯定是有一部分内容的。基因间区,可能基因组得基因在预测的时候预测的不是那么完善,基因组做完后我们会使用的软件来进行预测,根据结构来预测。一般都会给你一个预测的可信度,会发布预测结果比较高的部分,比较低的部分可能不会发布,软件认为比较高的部分并不能把所有的基因都囊括进去,我们在分析的时候的转录组是实际转录出来的那些,所以间区要么是没预测出来的那些基因,要么是非编码的基因等都可以转录出来,在间区中,间区是有部分比例的reads存在的,或者是一些新的基因,或着是位于基因间区的非编码的一些基因,常规物种,间区和内含子区间都不会太大,但有些组织,比如生殖细胞内的一些组织的一些样品他们的基因间区可能会比较大一些(可能是生殖细胞中有大量的非编码的基因被转录出来,所以会导致基因间区比较多一些,间区越多,意味着我们后面鉴定到的新基因数量越多)。
统计Mapped reads在指定的参考基因组不同区域(外显子,内含子和基因间区)的数目,绘制基因组不同区域上个样品Mapped Reads的分布图,如下:
Exon(外显子)
Intergenic(内含子)
Intron(基因间区)
Mapped Reads :比对到参考基因组上的Reads数目及在clean Reads中占大的百分比。
序列比对和转录组拼接是有参转录组在分析时候的一个基础,一个是比对效率的问题,数据是不是大部分能够利用,基因组与我们的样品是不是匹配,另外一个是关于转录本的拼接,这拼接就直接用我们定量的结果,因为定量是针对转录本去进行定量的。由于转录组拼接是软件自身带的一种算法去拼接的,准确性相对来说是比较差的,所以说我们在分析结果中并没有提供软件拼接出来的转录本的信息,所以我们在用的时候还是以基因组它本身提供的这个转录本号来使用,如果对于新转录本,不同的转录本有需要的可以去做三代全长转录组,一般任何涉及到拼接的,算法涉及到拼接的,里面或多或少有些错误存在,三代全长转录组是不需要拼接的,相对于二代拼接的结果,准确性还是很高的。
二新基因的鉴定
新基因发掘的基础就是我们转录本的拼接,软件在拼接的时候是不考虑这个基因是否被预测了,会直接针对于比对的位置去进行拼接,拼接完了后把拼接结果跟我们基因组本身提供的基因的一个位置去进行比较,如果我们拼接出来的转录本它跟基因组本身预测的基因位置是重叠的,那么我们认为拼接出来的基因是我们已知基因的多个转录本。当然我们拼接结果中会发现有一部分拼接出来的转录本或着说基因它是位于基因组预测的一个基因间区,我们基因组本身在预测的时候认为这一段可能没有基因,但我们在做的时候,转录组在测序测到有转录出来有表达,所以这部分基因有可能是一个新的基因。
新基因的概念:针对于我们分析当时用到的基因组的Gff文件,是记录基因结构的文件,针对于这个文件来说是个新得基因,但是针对于NCBI 这种收录所有信息的数据库来说可能不是新基因。
怎么判断是新基因:
1我们软件拼接出来的转录本或是基因位于基因的间区,这是判断的第一个标准,跟基因组本身预测的信息没有任何重叠的,这部分基因首先就认为它可能就是潜在的一个新基因。
2大致过滤:
由于我们常见的物种都是一些多外显子的物种,所以我们在做的时候都尽量把些只有一个外显子的过滤掉,保留有两个或两个以上外显子的序列,就认为它更可能是新基因。同时我们也对它是否有编码潜能做一个初略的判断。这个判断就是我们会对它进行编码区的一个预测,然后把预测出来的编码区,潜在的一个Orf它的logo(能)翻译的蛋白小于50个氨基酸这种序列把它过滤掉,剩下来的序列我们就认为它可能是一个能编码蛋白的一个基因,位于基因间区的,有两个或两个以上外显子的,同时有可能去编码蛋白的这部分转录本我们就可以作为一个新的基因。这就是我们新基因的一个结果。
3提供结果的文件是:BMk2NEWNene -Arabidopsis_thaliana.gene_final.filtered.gff—— 这是经过筛选的文件,筛选过外显子,筛过蛋白的一个信息,这个结果就是筛选后的一个结果。
文件内容
Seq-ID(新基因位于染色体的编号,位置信息的编号)
Source (信息的来源,我们是用stringTie 这个软件拼接的,信息的来源)
Type(第三列表示DE这个结构表示的是一个什么类型gene,mRNA,exon,CDS等映射出来新基因在基因组上这个区域的的一个类型。)
stare end (第四列第五列的数字 代表了它在染色体上或是说stiefor序列上面的一个起始位置和一个终止位置就是这个区域,如果是基因的话代表我们基因在这个区域就是从起始位置到终止位置这一段的DNa就是基因的这个区域)
第六列一般来说都是一个点它是常用的一些其他信息比如说打分呀什么的都是用这样的一个标注如果没有的话都是用点来标注。
第七列 代表 结构,在基因组上链的方向,链的位置“-”代表在反义链上,“+”代表在正义链上。
第八列 代表的信息是个移码信息针对于CDS(CDS是真正转录的区域)会有这个信息,其他的结构包括 外显子呀是没有移码信息的。CDS有这个信息是因为外显子断裂的点并不一定正好在编码区,可能在密码子的第一位第二位不在第三位,在这里会有外显子边界,在这里会记录CDS区移码的一个信息,如果没有的话就用点来表示。我们的外显子有边界的话不会考虑我们编码刚好到这里是一个氨基酸。如果我们外显子的边界刚好是密码子的一个中间的话这里的cds如果我们直接把序列拿出来翻译的时候需要做一个移码处理的,这里只针对CDS有移码信息的话会有数字来进行表示,如果没有的话,或是没有记录的话直接用点来表示。
第9列就是一些结构的ID的命名等信息。它可以有很多信息用分号隔开,最常用的就是基因命名的信息,这里的命名就是用ID去命名,针对于mRNa 告诉我们这断的结构,是 一个什么样的类型,它的名字是什么,不同的结构之间又有从属关系就像mRNA,它的ID就是mRNA的ID,它的Perent就是它上面的基因,所以它就可以通过从属关系把所有结构进行一个串联。
结论:这个文件就是记录了我们所有预测出来筛选过的新基因的一个信息,这里我们可以看到一个基因会有很多个mRNA存在 ,一个RNA可以有很多个外显子,单个外显子的已经被丢掉了。这就是新基因预测的一个结果。
(Arabidopsis-thaliana.nevGene.longest-transcript.fa)序列,新基因的最长转录本的序列。按我们通常说的惯例。一个基因会有多i个转录本,但是我们再说某某基因的时候,或是某某基因的序列的时候,一般来说都是用它所包括的转录本中最长的那个转录本作为基因的一个代表,虽然说这个最长的转录本不一定包含这个基因的所有外显子和信息,但是它包括的信息相对来说是最多的,因此 我们再说某某基因的时候我们通常说他的序列一般都是指它的最长转录本的一个序列
)
)
)