1、比对效率统计
1、比对效率统计
生物学重复相关性分析!!!差异分析之前的重复相关性分析十分重要。
1.序列对比和转录本的拼接
比对效率统计
mapped reads 比对效率>60%合格,有参转录组一般在95%以上,保证分析结果有效真实。
unique mapped reads
multiple map reads
常规物种在基因组上 有多拷贝情况存在,多拷贝情况出现,一般较低。
reads map+-与转录方向有关
有参考基因组,拼接将比对区域在同一区域的reads进行拼接,方便进行对比。
测序主要部分mrna 外显子部分,剩余基因间区,内含子部分。
软件在基因组中寻找外显子部分,进行比对。
基因间区主要是非编码rna
生殖细胞类 基因间区较大,大量非编码rna存在,新基因的存在。
2.新基因的鉴定
新基因指对比基因组中的未知新基因,但NCBI可能存在新基因。
拼接出来的转录本位于基因间区
bmk2gff文件
stringtie 类型gene mrna无基因区域 exon分段区域
新基因功能注释
GO蛋白水平比较,相对蛋白水平不同物种相似度较高,核苷酸水平相差较大
KEGG使用KOBA软件进行比对
swiss-prot数据较少,证据较强
NR数据库量大
两者都是统计蛋白的全名,蛋白全称数据结果。
All gene所有基因包括新基因和已知基因的DNA序列
GO数据库 与功能有关
生物过程 细胞组分 分子功能逐级细分
关注功能的数据库分析
KEGG(KOBAs 2.0) 能够在通路中注释蛋白
研究通路,优先在kegg文件夹中搜集确定通路内部被注释了的基因
Pfam蛋白结构功能域,蛋白家族的粗略分类。
PF。。。结构域编号
1013编号新基因属于FBD家族
All Database annotation
FPKM=cDna fragments/mappedfragments(millions)*TranscriptLength(kb)排除了reads长度和数量
通过数字表示某基因表达的高低
count/fpkm软件基因表达量的统计
Multiple map reads 多处比对到同一基因,
分段计算,不影响总的比率
同一组至少做三个重复,各种原因出现转录结果与其他样本不一致,能够有剔除样本的能力。
相关性好,组内样本基因表达一致,结果可信,反之结果不可信。
差异表达筛选
FC(fold change)>2、FDR<0.01筛选标准
火山图
横log2(fc)/纵-log10(FDR/p值)
横坐标表示某一个基因在两样品中表达量差异倍数的对数值;纵坐标表示基因表达量变化的统计学显著性的负对数值。横坐标绝对值越大,说明表达量在两样品间的表达量倍数差异越大;纵坐标值越大,表明差异表达越显著,筛选得到的差异表达基因越可靠。
差异较大的基因进行挑选
log2FC方便观察上调下调情况,绘图优势
差异分析用的count值
qpcr差异基因挑选
排除标准 cpm值>1
差异基因功能富集分析
二级功能分类,以二级功能为基础,
GO富集
Go功能 二级功能描述 差异基因比例 所有基因比例
Kegg
通路图红色代表差异上调、绿色差异基因下调、蓝色有上调有下调
通过通路图进行筛选差异基因,寻找自己想要的通路,通过通路图查看具体差异基因
气泡图
针对每一通路差异基因与所有基因富集结果
gene num qvalue diff
kegg表格
富集因子 大于1代表富集,可通过调整P值大小,得到富集显著想要的通路,+
可以根据通路类别结合气泡图、条形图筛选差异基因。
有参转录与无参转录的区别:我们测的物种有没有基因组
皮尔逊相关系数大于0.8,说明相关性较好
建议剔除小于0.7的样品
表达倍数大于2倍
显著性0.05
go分析
二级功能统计
基因,DNA
NR比较全面,Swiss-Prot更准确
GO数据库
KEGG数据库
PFAM数据库比对文件
Biomarker-20220902
1.相关性分析
2.差异基因功能富集分析-重点√
3.比对效率>60%即有意义
4.新基因分析-保留含有两个及以上外显子的序列√
代谢组结题报告讲解
表1样本信息表(样本、分组)
主要分析内容
比对效率 以60%判断基因组数据能否使用
若<60% 考虑更换参考基因组或做无参分析
尽量选择同一个物种的基因组
转录本拼接预测基础:根据结构进行预测
一般默认最长的转录本代表某个基因序列(mRNA)
基因功能注释:
不同物种核酸水平不一致,蛋白水平可能一致
NR SWISS PROT 蛋白全称注释结果
Pfam 蛋白峰 蛋白 结构域 蛋白家族
全转
SRNA保留read长度15-35nt
环状RNA使用BWA软件与参考基因组比对,与其他产品不一致
circle定量 SRPBM
SRNA比对 bowtie
SRNA靶基因预测软件 植物TargetFinder 动物用miRanda和targetscan交集
GO基因分类
横坐标 GO GO==功能
蛋白互作网络分析:string数据库
1.kegg通路分析
2.相关性分析
3.相关性网络图
4.cca分析
unigene代表拼接的基因的数量。组装结果统计表中主要看unigene的total number和N50 length。total number的数量特别多,说明拼接结果差。所有序列统计全长,全长碱基的个数,从最长的转录本依次排列下来进行累加,当累加起来的数量大于总的碱基数量一半时那一条碱基序列的长度就定义为N50,N50越大,说明组装长序列占的比例越大,组装的越完整。
(Q:total number的unigene很大,视频里面说应该3~5万)
无参的劣势:依赖算法,假阳性比较高,可能出现组装错误,相似的基因可能会被装到一个基因中,有污染时影响会非常大。
1、皮尔逊相关系数的平方(r2) 大于0.8,即r2越接近1,表明两个重复样品相关性强。
差异倍数(Fold change) 表示两样品间表达量的比值。
错误发现率(False Discovery Rate,FDR)是通过对差异显著性p值(P-value)进行校正得到的。
本实验筛选标准:Fold change>=2且FDR<0.01
1、组装软件:Trinity(软件相关文章)
2、reads 双端分析 150bp
图1 组装图
图2 具体组装过程
无Contig数据,提供转录本数据、Unigene数据
3、文件名:Final-Transcript、Final-Unigene
Final-Transcript转录本文件:Fasta文件——EditPlus软件打开
转录本命名方式:c49888.graph_c0_seq1
c49888.graph:编号
c0:Component (片段集合)
c49888.graph_c0 类似于基因编号
seq1:前缀一样 seq不一样 指不同转录本来自同一个Unigene基因同一个Component
Final-Unigene:Fasta文件——EditPlus软件打开
一个基因有多个转录本,外显子差异,通常选择最长转录本序列代表Unigene基因序列
4、组装结果统计表格
注意Unigene基因数量多少,数量过多,拼接结果差(常见作物正常基因数量2-3万,拼接的话6-9万结果不错)
N50:计算方式,所有序列计算全长,N50越大说明拼接长片段多
5、无参/有参区别
a.无参适用范围广
b.软件分析依赖算法,存在误差错误,对于相似基因无法辨别装成一个基因。
c.基因表达量较低,会把较长基因装断,成俩个较短基因
d.无法判断是否污染,对分析结果影响大
6、组装结果不好,如何优化
如果200-300bp数据较多,其可靠性低,如果不进行定量,可以过滤掉。
定量后,表达量低,无read支持转录本,可丢掉。
7、组装方式:合并组装/分组组装
合并组装:同一个物种建议合并组装
分组组装:特殊需求,一个物种的两个亚种,一个植株的不同组织部位。只有最长转录本,对定量结果有一定影响。
两个物种做两个无参组装再进行比对。
结果文件:BMK_5_Unigene_Structure——CDS
best:筛选出最好的蛋白序列,但不一定是最完整。文件夹中:
cds-序列文件:ORF:5prime_partial 无起始密码子/complete完整的/interal 中断的,既无起始密码子也无终止密码子/3prime_partial 无终止密码子
pep-翻译的蛋白序列
gff-关于结构的定义
基因编号是软件输入顺序
complete:在best中提取的 预测的CDS结果中有明确的起始密码子和终止密码子
Transdecoder软件预测
正向预测三次,每隔一个碱基预测一次,反向也是。
(NCBI可以提交转录本数据预测CDS)
Blastx蛋白序列比对NR,Swissprot,COG,KOG,eggNOG,KEGG,Pfam
百迈克筛选条件:evalue<1e-5
blast2go软件:GO
参考NCBI数据关系,关联出GO结果
注释结果文件:BMK_4_Unigene_Anno
All_Database_annotation:筛选基因常用表格
NR注释:比对来源物种图
可以只注释一个物种:例如把蛋白序列只以金银忍冬注释
定量软件:RSEM 针对转录本进行定量,累加到Unigene。
判断是否表达可参考文献设定标准。FKPM<1/5/10
样品间相关性评估:皮尔逊相关系数r^2>0.8 认为相关性比较好
差异分析软件:有生物学重复:DEASEQ2,DESeq,edgeR
筛选条件:FC(log2FC),FDR(PValue)
差异基因功能富集:GO,KEGG
寻找目标基因 :根据已知的基因名,在功能注释中进行检索
差异分析结果中找关键基因:根据差异基因的功能富集结果(GO/KEGG),找关键基因。筛选q值 <0.01/0.05
pfam-预测功能域的db,可以预测家族。