序列比对和转录本的拼接——定量分析
新基因的鉴定
基因功能注释
基因定量及生物学重复相关性分析——样本的良好度,结果是否可靠
差异表达基因分析——实验目的
差异基因功能富集分析——差异基因的功能偏向性
一
比对效率统计,基因组比对率没有比对上——杂质序列,数据的利用率,样本和基因组的比对;比对效率60%可以用,说明样本序列60%可以用,若过低的话可以换一个基因组或做无参,尽量选择同一个物种。
测序为mRNA基因组为外显子,基因间区越多说明后期检测到的新基因可能越多,也会包含一些内含子,应用的是二代测序,转录本拼接建议采用三代测序,结果更可靠
二
一般选用大于等于2个外显子并能翻译成蛋白质作为新基因,新基因可能在NCBI中比对到序列,那么就可以将其作为已知基因进行研究
基因文件报告格式一般为GFF,9列
基因序列一般有两种(DNA序列既包括从开始到结束,包含内含子;转录序列)一个基因有多个转录本,最长的那个转录本是基因序列。
三
不同物种氨基酸蛋白比对率高,核酸水平差异率高比对率低,用BLAST蛋白比对,得到蛋白的功能。GO不是直接比对出来的根据BLAST和NR关联出来的。KEGG、NR、Swiss-Port常用;NR、Swiss-Port相似包含蛋白的详细信息,NR是根据NCBI非冗余的信息,Swiss-Port另一个机构收录的蛋白信息,信息量少但准,精。NCBI信息最全。
NR文件第二列为NCBI比对率最高的蛋白编号,E值小于10的负5次方为好第四列相似度,相似度越高两个蛋白序列相似度越高,最后一列为检索结果
OS是物种信息,OX物种编号,GN是蛋白名字缩写,PE证据支持(1-6方式),,第一个单词是蛋白名字,SN是蛋白版本
GO功能数据库网络层次结构,不同分支不同级别功能,类似食物链,同一物种不同食物链处于不同营养级。GO文件第一列基因ID第二列是有多少个功能,第三列及以后是包含的功能。
KEGG标注某个基因处于哪个通路具有什么功能。每个通路一个图片。
Pfam蛋白功能域的收录,比对蛋白功能域,检测WRKY家族那些基因收录到其中。第二列为结构域编号,第三列为蛋白结构域属于哪个家族一个基因可能会比对到好几个家族
FPKM基因表达量,片段定量,双端测序,基因表达水平指标,RPKM单端测序reads定量。做基因共表达、热图等等。某个基因在所有样本中都没有表达,或者表达量很低没有检测到属于正常现象。样本好坏也有关系。
根据样本表达量看样本相关性,一般实验三个重复,排除样本特异性,实验操作不当。样本相关性高,实验可靠。相关系数,皮尔逊相关系数平方大于0.8,相关性高。
差异表达筛选,p值比FDR更宽松一点,Fold change>=2倍差异值,FDR<0.01,FDR是对p值的校正。将FDR值放大可以获得更多数据。
火山图横坐标差异基因倍数值log,恒虚线是FDR值筛选条件0.01对数为2,纵两条2倍数关系正负1,红色为上调,绿色为下调,黑色不满足条件。
功能富集
GO差异表达基因富集分类横坐标GO的部分功能。主要是二级功能。柱形图越高代表这个功能的基因越高。
topgo图
把所有结点包括子节点做的显著性分析,然后挑选10个最显著富集的节点方块代表红色显著性最高颜色越浅显著性越低
对每一个GO功能进行富集的结果,第一列GO基因功能描述,第二列什么功能描述,第三列差异基因中GO功能占的比例,第四列所有基因GO功能比例,第五列富集因子,数值越高富集越好,p值和q值显著性,最后一列差异基因。通过显著性排序的结果。
点图
对之上比例数量q值的展示
KEGG两个图
差异基因标注在通路中,不同颜色不同差异表达,红色上调,绿色下调,蓝色表达不一致(上下调都有)。
富集了显著性最好的20个进行展示,颜色不同显著性不同颜色越深显著性越差红色显著性最高。
第一列KEGG通路标号
第二列通路名称
第三列差异基因站通路比例
第四列所有基因通路中注释基因的比例
五富集因子大于1即好
显著性
差异基因