外显子要比比
外显子要比比
一、.有没有基因组:
(1)无参转录组拼接技术
二、Trinity软件:
1:打断、延伸
2:overlap
3:转录本序列
三、Trinity转录本记录
1.命名方式:
(1)得到的转录本序列
>c81126.graph__C0___seq1
>c81126.graph__C0___seq2
来自同一个unigene
(2)Unigene序列(选择最长转录本序列)
>c0.graph__c0
CCTGT..............CTGG
>.c1000.graph__c0
GTTAC........CCTG
2.组装结果评判
(1)拼装结果组装数量(6-9万)
如果数量太多,拼装结果不好
N50长度越大,拼装结果越好
四、组装方式
1.合并组装(同一个物种)
2.分组组装
(Unigene组装,可能会丢掉部分转录本的信息)
五、CDS预测
transdecode预测:
正反各预测3次,一个基因一个预测结果
best:
complete:完整(明确的起始子和终止子)
5prime_partial (5"缺失)
complete:有起始密码子,终止密码子
internal:缺少起始密码子和终止密码子
六、Unigene 功能注释
NR注释:同源蛋白(来自植物、动物)是否有污染。相应的物种
七、定量相关性分析
相关性:皮尔曼相关系数r,R2越接近1,相关性则越强,<0.8,可能相关性就没那么好。
八、差异分析及差异基因富集分析
差异分析软件:
有生物学重复:DESeq2,DESeq,edgeR
无生物学重复:EBSeq,edgeR
筛选条件:FC(log2FC ),FDR(PValue)
差异基因功能富集
GO
KEGG
基因检索方法
寻找目标基因
根据已知的基因名,在功能注释中进行检索
差异分析结果中找关键基因
根据差异基因的功能富集结果(GO、KEGG),找关键基因
1、比对效率统计
生物学重复相关性分析!!!差异分析之前的重复相关性分析十分重要。
1.序列对比和转录本的拼接
比对效率统计
mapped reads 比对效率>60%合格,有参转录组一般在95%以上,保证分析结果有效真实。
unique mapped reads
multiple map reads
常规物种在基因组上 有多拷贝情况存在,多拷贝情况出现,一般较低。
reads map+-与转录方向有关
有参考基因组,拼接将比对区域在同一区域的reads进行拼接,方便进行对比。
测序主要部分mrna 外显子部分,剩余基因间区,内含子部分。
软件在基因组中寻找外显子部分,进行比对。
基因间区主要是非编码rna
生殖细胞类 基因间区较大,大量非编码rna存在,新基因的存在。
2.新基因的鉴定
新基因指对比基因组中的未知新基因,但NCBI可能存在新基因。
拼接出来的转录本位于基因间区
bmk2gff文件
stringtie 类型gene mrna无基因区域 exon分段区域
新基因功能注释
GO蛋白水平比较,相对蛋白水平不同物种相似度较高,核苷酸水平相差较大
KEGG使用KOBA软件进行比对
swiss-prot数据较少,证据较强
NR数据库量大
两者都是统计蛋白的全名,蛋白全称数据结果。
All gene所有基因包括新基因和已知基因的DNA序列
GO数据库 与功能有关
生物过程 细胞组分 分子功能逐级细分
关注功能的数据库分析
KEGG(KOBAs 2.0) 能够在通路中注释蛋白
研究通路,优先在kegg文件夹中搜集确定通路内部被注释了的基因
Pfam蛋白结构功能域,蛋白家族的粗略分类。
PF。。。结构域编号
1013编号新基因属于FBD家族
All Database annotation
FPKM=cDna fragments/mappedfragments(millions)*TranscriptLength(kb)排除了reads长度和数量
通过数字表示某基因表达的高低
count/fpkm软件基因表达量的统计
Multiple map reads 多处比对到同一基因,
分段计算,不影响总的比率
同一组至少做三个重复,各种原因出现转录结果与其他样本不一致,能够有剔除样本的能力。
相关性好,组内样本基因表达一致,结果可信,反之结果不可信。
差异表达筛选
FC(fold change)>2、FDR<0.01筛选标准
火山图
横log2(fc)/纵-log10(FDR/p值)
横坐标表示某一个基因在两样品中表达量差异倍数的对数值;纵坐标表示基因表达量变化的统计学显著性的负对数值。横坐标绝对值越大,说明表达量在两样品间的表达量倍数差异越大;纵坐标值越大,表明差异表达越显著,筛选得到的差异表达基因越可靠。
差异较大的基因进行挑选
log2FC方便观察上调下调情况,绘图优势
差异分析用的count值
qpcr差异基因挑选
排除标准 cpm值>1
差异基因功能富集分析
二级功能分类,以二级功能为基础,
GO富集
Go功能 二级功能描述 差异基因比例 所有基因比例
Kegg
通路图红色代表差异上调、绿色差异基因下调、蓝色有上调有下调
通过通路图进行筛选差异基因,寻找自己想要的通路,通过通路图查看具体差异基因
气泡图
针对每一通路差异基因与所有基因富集结果
gene num qvalue diff
kegg表格
富集因子 大于1代表富集,可通过调整P值大小,得到富集显著想要的通路,+
可以根据通路类别结合气泡图、条形图筛选差异基因。
有参转录与无参转录的区别:我们测的物种有没有基因组
皮尔逊相关系数大于0.8,说明相关性较好
建议剔除小于0.7的样品
表达倍数大于2倍
显著性0.05
go分析
二级功能统计
基因,DNA
NR比较全面,Swiss-Prot更准确
GO数据库
KEGG数据库
PFAM数据库比对文件
Biomarker-20220902
1.相关性分析
2.差异基因功能富集分析-重点√
3.比对效率>60%即有意义
4.新基因分析-保留含有两个及以上外显子的序列√
代谢组结题报告讲解
表1样本信息表(样本、分组)
主要分析内容
比对效率 以60%判断基因组数据能否使用
若<60% 考虑更换参考基因组或做无参分析
尽量选择同一个物种的基因组
转录本拼接预测基础:根据结构进行预测
一般默认最长的转录本代表某个基因序列(mRNA)
基因功能注释:
不同物种核酸水平不一致,蛋白水平可能一致
NR SWISS PROT 蛋白全称注释结果
Pfam 蛋白峰 蛋白 结构域 蛋白家族
全转
SRNA保留read长度15-35nt
环状RNA使用BWA软件与参考基因组比对,与其他产品不一致
circle定量 SRPBM
SRNA比对 bowtie
SRNA靶基因预测软件 植物TargetFinder 动物用miRanda和targetscan交集
GO基因分类
横坐标 GO GO==功能
蛋白互作网络分析:string数据库
1.kegg通路分析
2.相关性分析
3.相关性网络图
4.cca分析
unigene代表拼接的基因的数量。组装结果统计表中主要看unigene的total number和N50 length。total number的数量特别多,说明拼接结果差。所有序列统计全长,全长碱基的个数,从最长的转录本依次排列下来进行累加,当累加起来的数量大于总的碱基数量一半时那一条碱基序列的长度就定义为N50,N50越大,说明组装长序列占的比例越大,组装的越完整。
(Q:total number的unigene很大,视频里面说应该3~5万)
无参的劣势:依赖算法,假阳性比较高,可能出现组装错误,相似的基因可能会被装到一个基因中,有污染时影响会非常大。
1、皮尔逊相关系数的平方(r2) 大于0.8,即r2越接近1,表明两个重复样品相关性强。
差异倍数(Fold change) 表示两样品间表达量的比值。
错误发现率(False Discovery Rate,FDR)是通过对差异显著性p值(P-value)进行校正得到的。
本实验筛选标准:Fold change>=2且FDR<0.01