统一基因
统一基因
1、什么是杂合度和杂合区域?
2、N50是什么?
3、同源物种的模式作物进行基因预测
4、基因组完整性评估
5、功能基因注释
6、cicler图:GC含量、转座子....
2代--双端
3代--单端
无参的不会丢掉任何基因组
SNP密度高,倒位
6. 全基因组复制:
利用Ks 分析方法:直系:不同物种:物种分歧
旁系:同一物种:复制
Ks越小,代表物种越年轻
基因共线性:用MCSCAN
基因组共线性:Mumer
相关性 0.8以上
差异表达基因分析
共表达模式聚类分析
fpmk
unigene 组装看total number 和N50
与有参区别 无法判断有误污染,可能组装更多
合并组装和分组组装
cds预测,蛋白参考,蛋白序列,编码框
best 最好的 compelet完整
orf type 完整、5'端缺失、片段、3‘’端缺失
相关性表示生物学重复可靠性,大于0.8好
聚类热图 生物学重复的质控
可以直观展现我们重点基因的热图,
www.biocloud.net
按行归一化
按行、列聚类
1.看比对效率判断结果好坏
2.水稻常用的参考基因组9311(籼稻),日本晴(粳稻)
二代测序
基因表达情况,基因与表型
无参,二代测序拼接难,定量不准
无参转录组
有参转录组培训大纲步骤如下:
有参转录组最重要的内容:序列比对然后对转录本进行拼接
新基因鉴定
基因功能注释:ID 用的 较多
基因定量及生物学重复相关性分析
差异表达基因筛选:和实验目的有很大关系
差异基因功能富集分析
根据结题报告来看:
第一部分:序列比对和转录本拼接
1.如何选择参考基因组:如近源物种, 通过比对进行测试,常用的软件是TopHat2 和Bowtie2 进行比对,将测序序列与基因组 比对,允许一定错配,看多少的reads能比对上。
看结果好不好第一先看比对效率好不好 ,能告诉测序样品和参考基因组的匹配程度,看数据利用率,越高越好。Mapping rate.常见作物一般比对效率一般能打到80%以上。至少60%以上。最好是同物种,实在不行就用无参。
2.将比对结果转化到基因组上的位置信息及对转录本进行拼接
与无参拼接有一定差别,更有针对性,对一个区域进行拼接,无参是全部打混,无参有可能会把相似性比较高的序列拼接到一起,通过拼接有参拼接可得到多个转录本的结构,对转录本进行定量。
不同区域的数目分布图 按道理应该是都会被转录,可能是因为参考基因组预测的问题,在基因间区的更可能是新基因或者非编码基因。间区越多意味着后期鉴定到的新基因可能更多。
在基因组注释较为完全的物种中,比对到Exon(外显子)的reads含量最高,比对到Intron(内含子)区域的reads来源于pre-mRNA的残留及可变剪切过程中发生的内含子滞留事件导致的,而比对到Intergenic(基因间区)的reads是因为基因组注释不完全。
三代全长不用拼接,可靠性会更高
2.新基因的鉴定
使用string tie 进行拼接,与原有基因组注释进行比较,挖掘新转录本和新基因,这个新基因是针对用的参考基因组本身,可能会存在NCBI等数据库。如果NCBI没有可以做一些额外的分析,如比较基因组分析等。需要去判断此是否为新基因:首先是判断的第一标准是拼接出来位于基因间区,可能是潜在新基因,第二是进行粗略过滤,比如过滤到只有1个外显子的序列,因为大部分是多外显子基因,第三是判断是否有编码区,预测编码区,潜在ORF,过滤到编码的氨基酸小于50的过滤到。剩下的可能是含2-3个以上外显子编码蛋白质的新基因。
?不同软件影响大么 诺和用的 Cufflinks
新基因里的gff是筛选过的蛋白质系信息,第一列为染色体信息,最后一列命名信息:
phase 可能是移码信息,针对CDS |
---|
序列在Fa文件,是新基因的最长转录本序列
因为一个基因可能有多个转录本,就列出最长 转录本代表基因序列,不一定能包含所有外显子序列,但是相对而言要全一些。
也会提供DNA序列,含内含子。
新基因对非常见物种很有意义
3.基因功能注释
数据库:NR swiss-prot GO COG KOG Pfam KEGG
BLast 软件,除了GO外,是通过核酸比对蛋白,比对蛋白,GO是与NR联系起来 的。根据NR结果再进行关联。KEGG是通过KOBAS软件得到KEGG 结果,不是直接用的KEGG官网。z
最常用的是NR swiss-prot Pfam GO KEGG
这5个数据库
NR和swiss-prot内容相似,都是蛋白质数据,
NR是NCBI收集整理的,稍微全些,更全
Swiss-prot数据较少,但结果一般都是有数据支持,更准
NRE值小于10-5,才觉得比较可靠,有多个的时候挑最高的。Annotation 要用全称
Swiss-prot 结果和NR类似,但稍有差别:前面一样蛋白全面和物种信息,后面还会有物种编号:OX,GN基因缩写(可用简写检索),PE蛋白收录后的证据支持方式(由1到6进行编号),SV代表蛋白在序列库重的版本号
GO数据库:是关于功能的数据库,很大,数据信息是个网络的层次结构,分3个一级功能,每个一级功能下面分了N个下级,有些GO结点在不同分支中处于的层次级别不一样。
是通过NR区关联的,注释结果会比较细,文件中GO—ANNO代表注释出来几个功能,可通过此分析去对目标功能的关键词进行检索,
KEGG:是代谢通路数据库,通过KOBAS软件获取的,与KEGG官网的分析相似,KEGG文件有2类,第1类是注释结果文件,K号可在KEGG官网搜索到的
Pfam:收录蛋白结构功能域信息,第二列结构域编号,第三列结构域编号对应的蛋白家族名称
4. 基因定量及生物学重复相关性分析
软件对转录本进行定量,将转录本定量结果累加,来代表基因的定量结果
软件为:用string tie
常用的是用FPKM这种归一化方式来表示,通过强度和 测序量来表示基因表达水平,RPKM是用的Read而FPKM是对fragment进行定量,是 成对的REads ,因为现在是双端测序,分子代表比对到转录本上的片段数目,分母是所有比对到基因昂的fragments数目及转录本长度,对结果归一化,实际是排除了测序量和转录本的影响。是每百万fragments中来自某一基因每千碱基长度的fragments数目,其同时考虑了测序深度和基因长度对fragments计数的影响,是目前最为常用的基因表达水平估算方法。般情况下,FPKM数值0.1或者1作为判断基因是否表达的阈值,不同的文献所采用的阈值不同。
二代测序一般测出来的基因都是中高表达的基因,会对低表达的基因测的较少。
其中对于多比对的reads,比对时会在定量的时候进行分配。
需要对样品相关性进行分析
3个重复
一般是通过相关系数分析,佩尔逊相关系数R进行分析,是直接对表达量进行分析,>0.8那么重复较好,Encode计划建议皮尔逊相关系数的平方(R2)大于0.92(理想的取样和实验条件下),具体的项目操作中,我们要求生物学重复样品间R2至少要大于0.8,尤其是小于0.7时要剔除,否则需要对样品做出合适的解释,或者重新进行实验。。
6. 差异基因筛选
若有明确目标,可直接寻找目标基因,通过ID查询
若是对处理和实验进行分析,要寻找相关基因,那么就要首先关注差异表达基因。所以需要关注差异基因。
差异分析 软件较多,其中DEseq2 edgeR 是使用率较高的软件,算法不一样,可能会有差异。只能根据结果来看。
差异表达基因的条件一般是从表达倍数来看,另外一个通过显著性进行检验,一般是2倍以上,P一般是0.01或者0.05以下。Pvalue值还可以进行矫正,会得到FDR一个值。
可通过调整参数来要多的结果或者少的差异基因结果。2倍差异是文献中最多的,可放宽到1.5.或者将P降低到0.05
结果文件展示
火山图:如果想做调整时,可 通过图来判断是否调整或者调整如何
横坐标达标差异基因表达量贝倍数值的对数,纵坐标是FDR的10的对数值,1横2纵分成了6个区域,横大于2纵大于+-1
FDR是差异显著性结果
Log2FC 是差异倍数值
差异分析时是对抗噪值进行的分析,cont数,不是直接的表达量结果,做qPCR验证从差异基因中挑选差异基因明显的或者目标基因。
会从所有检测结果中,挑选能在至少一半的样品中表达情况能超过阈值,那么可用于差异分析,否则就不用于差异分析,阈值一般设为CPM>1,
6 差异基因功能富集分析
GO富集结果:柱状图主要是以2级功能来画的,根据3个一级功能分类。
网络图是通过软件做的 topgo,是把每个结点和子节点的显著性分析结果,显著性的都展现出来,但是只画出最显著的结点,下面的不画,画上面,而且只展示最显著的十节点,用方块表示。富集因子enrich factor:差异基因所占比列除总基因所占比例,越高越好.
topgo数据来源于注释结果
Pvalue和qvalue都是对显著性的描述
KEGG:通路图
富集图:针对每一个通路差异基因注释的结果进行的富集分析,筛选的显著性最好的前20个,形状大小代表差异基因大小,颜色表矫正后的显著性(qvalue)
背景:分类 性多样性
进化
门纲目科属种 可下设亚 级别单位
基因组+比较基因组学+转录组学+共表达分析(WGCNA)
挖掘性二态性关键通路及基因,提供基因组,及相关性状的调控机理
性别偏好基因研究 暂未于相关性状联系起来
基因组:40X
调研图 推测大概基因组大小
IPA :二代数据contig 组装 三代数据填充 PIP组装及纠错 WTDBG组装 提高N50水平 到草图水平利用HIC辅助组装进行染色体群组划分,确定顺序和方向,将基因组组装提升到染色体 水平
不同组织的转录组做基因预测
系统进化分析
进化比较揭示系统进化关系
对共同祖先,基因扩张
GO和KEGG富集
* News are in - the source doc/NEWS.Rd - installed R's doc/NEWS and doc/NEWS.pdf * Details about single subversion (svn) commits are available, e.g., by svn log
重点:
差异表达基因分析
差异基因功能富集分析
数据库NR更全,Swiss更准,GO功能数据库,
total reads 大于60%