百迈客农学—结题报告讲解

默认教学计划
6858人加入学习
(1人评价)
价格 免费
教学计划
承诺服务

一、.有没有基因组:

(1)无参转录组拼接技术

二、Trinity软件:

1:打断、延伸

2:overlap

3:转录本序列

三、Trinity转录本记录

1.命名方式:

(1)得到的转录本序列

>c81126.graph__C0___seq1

>c81126.graph__C0___seq2

来自同一个unigene 

(2)Unigene序列(选择最长转录本序列)

>c0.graph__c0

CCTGT..............CTGG

>.c1000.graph__c0

GTTAC........CCTG

2.组装结果评判

(1)拼装结果组装数量(6-9万)

如果数量太多,拼装结果不好

N50长度越大,拼装结果越好

四、组装方式

1.合并组装(同一个物种)

2.分组组装

(Unigene组装,可能会丢掉部分转录本的信息)

五、CDS预测

transdecode预测:

正反各预测3次,一个基因一个预测结果

best:

complete:完整(明确的起始子和终止子)

5prime_partial (5"缺失)

complete:有起始密码子,终止密码子

internal:缺少起始密码子和终止密码子

六、Unigene 功能注释

NR注释:同源蛋白(来自植物、动物)是否有污染。相应的物种

七、定量相关性分析

相关性:皮尔曼相关系数r,R2越接近1,相关性则越强,<0.8,可能相关性就没那么好。

八、差异分析及差异基因富集分析

差异分析软件:

有生物学重复:DESeq2,DESeq,edgeR

无生物学重复:EBSeq,edgeR

筛选条件:FC(log2FC ),FDR(PValue)

差异基因功能富集

GO

KEGG

基因检索方法

寻找目标基因

根据已知的基因名,在功能注释中进行检索

差异分析结果中找关键基因

根据差异基因的功能富集结果(GO、KEGG),找关键基因

 

[展开全文]

生物学重复相关性分析!!!差异分析之前的重复相关性分析十分重要。

[展开全文]

1.序列对比和转录本的拼接

 比对效率统计

mapped reads 比对效率>60%合格,有参转录组一般在95%以上,保证分析结果有效真实。

unique mapped reads

multiple map reads 

常规物种在基因组上 有多拷贝情况存在,多拷贝情况出现,一般较低。

reads map+-与转录方向有关

有参考基因组,拼接将比对区域在同一区域的reads进行拼接,方便进行对比。 

测序主要部分mrna 外显子部分,剩余基因间区,内含子部分。

软件在基因组中寻找外显子部分,进行比对。

基因间区主要是非编码rna

生殖细胞类 基因间区较大,大量非编码rna存在,新基因的存在。

2.新基因的鉴定

新基因指对比基因组中的未知新基因,但NCBI可能存在新基因。

拼接出来的转录本位于基因间区

 bmk2gff文件

stringtie 类型gene mrna无基因区域 exon分段区域

新基因功能注释

GO蛋白水平比较,相对蛋白水平不同物种相似度较高,核苷酸水平相差较大

KEGG使用KOBA软件进行比对

swiss-prot数据较少,证据较强

NR数据库量大

两者都是统计蛋白的全名,蛋白全称数据结果。

All gene所有基因包括新基因和已知基因的DNA序列

GO数据库 与功能有关

生物过程 细胞组分 分子功能逐级细分

关注功能的数据库分析

 

KEGG(KOBAs 2.0) 能够在通路中注释蛋白

研究通路,优先在kegg文件夹中搜集确定通路内部被注释了的基因

 

Pfam蛋白结构功能域,蛋白家族的粗略分类。

PF。。。结构域编号

1013编号新基因属于FBD家族

 

All Database annotation

 

FPKM=cDna fragments/mappedfragments(millions)*TranscriptLength(kb)排除了reads长度和数量

通过数字表示某基因表达的高低

count/fpkm软件基因表达量的统计 

 

 Multiple map reads 多处比对到同一基因,

分段计算,不影响总的比率

 

同一组至少做三个重复,各种原因出现转录结果与其他样本不一致,能够有剔除样本的能力。

相关性好,组内样本基因表达一致,结果可信,反之结果不可信。

 

 

差异表达筛选

FC(fold change)>2、FDR<0.01筛选标准

 

火山图

横log2(fc)/纵-log10(FDR/p值)

横坐标表示某一个基因在两样品中表达量差异倍数的对数值;纵坐标表示基因表达量变化的统计学显著性的负对数值。横坐标绝对值越大,说明表达量在两样品间的表达量倍数差异越大;纵坐标值越大,表明差异表达越显著,筛选得到的差异表达基因越可靠。 

 

差异较大的基因进行挑选

log2FC方便观察上调下调情况,绘图优势 

差异分析用的count值

qpcr差异基因挑选

排除标准 cpm值>1

 

差异基因功能富集分析

二级功能分类,以二级功能为基础,

GO富集

Go功能 二级功能描述 差异基因比例 所有基因比例

Kegg

通路图红色代表差异上调、绿色差异基因下调、蓝色有上调有下调

通过通路图进行筛选差异基因,寻找自己想要的通路,通过通路图查看具体差异基因

 

气泡图

针对每一通路差异基因与所有基因富集结果

gene num qvalue diff

 

 

kegg表格

富集因子 大于1代表富集,可通过调整P值大小,得到富集显著想要的通路,+

可以根据通路类别结合气泡图、条形图筛选差异基因。

[展开全文]

有参转录与无参转录的区别:我们测的物种有没有基因组

[展开全文]

皮尔逊相关系数大于0.8,说明相关性较好

建议剔除小于0.7的样品

 

表达倍数大于2倍

显著性0.05

 

go分析

二级功能统计

 

[展开全文]

NR比较全面,Swiss-Prot更准确

GO数据库

KEGG数据库

PFAM数据库比对文件

 

[展开全文]

Biomarker-20220902

1.相关性分析

2.差异基因功能富集分析-重点√

3.比对效率>60%即有意义

4.新基因分析-保留含有两个及以上外显子的序列√

[展开全文]

代谢组结题报告讲解

表1样本信息表(样本、分组)

主要分析内容

[展开全文]

比对效率   以60%判断基因组数据能否使用

若<60% 考虑更换参考基因组或做无参分析

尽量选择同一个物种的基因组 

转录本拼接预测基础:根据结构进行预测

 

一般默认最长的转录本代表某个基因序列(mRNA)

基因功能注释:

不同物种核酸水平不一致,蛋白水平可能一致

NR SWISS PROT 蛋白全称注释结果

Pfam 蛋白峰 蛋白 结构域 蛋白家族 

 

 

[展开全文]

全转

SRNA保留read长度15-35nt

环状RNA使用BWA软件与参考基因组比对,与其他产品不一致

circle定量 SRPBM

 

SRNA比对 bowtie

SRNA靶基因预测软件 植物TargetFinder  动物用miRanda和targetscan交集

[展开全文]

GO基因分类

横坐标 GO GO==功能

[展开全文]

蛋白互作网络分析:string数据库

[展开全文]

1.kegg通路分析

2.相关性分析

3.相关性网络图

4.cca分析

 

[展开全文]

unigene代表拼接的基因的数量。组装结果统计表中主要看unigene的total number和N50 length。total number的数量特别多,说明拼接结果差。所有序列统计全长,全长碱基的个数,从最长的转录本依次排列下来进行累加,当累加起来的数量大于总的碱基数量一半时那一条碱基序列的长度就定义为N50,N50越大,说明组装长序列占的比例越大,组装的越完整。

(Q:total number的unigene很大,视频里面说应该3~5万)

 

无参的劣势:依赖算法,假阳性比较高,可能出现组装错误,相似的基因可能会被装到一个基因中,有污染时影响会非常大。

[展开全文]
Cucurbita_moschata.newGene_final.filtered.gff 新基因文件  
新基因如何得到:序列与NCBI比较  预测上传但是参考基因组没有(可以说已知) 新基因概念:拼接出来的转录本位于基因的间区,与有参转录组预测基因无重叠;过滤只有一个外显子的序列,是否有编码区
 
 
[展开全文]

1、皮尔逊相关系数的平方(r2) 大于0.8,即r2越接近1,表明两个重复样品相关性强。

 

[展开全文]
  • 差异表达分析

差异倍数(Fold change) 表示两样品间表达量的比值。

错误发现率(False Discovery Rate,FDR)是通过对差异显著性p值(P-value)进行校正得到的。

本实验筛选标准:Fold change>=2且FDR<0.01

 

[展开全文]
  • 无参组装原理及组装方式的选择

1、组装软件:Trinity(软件相关文章)

2、reads 双端分析 150bp 

图1 组装图 

图2 具体组装过程

无Contig数据,提供转录本数据、Unigene数据

3、文件名:Final-Transcript、Final-Unigene

Final-Transcript转录本文件:Fasta文件——EditPlus软件打开

转录本命名方式:c49888.graph_c0_seq1 

c49888.graph:编号

c0:Component (片段集合)

c49888.graph_c0 类似于基因编号

seq1:前缀一样 seq不一样 指不同转录本来自同一个Unigene基因同一个Component

Final-Unigene:Fasta文件——EditPlus软件打开

一个基因有多个转录本,外显子差异,通常选择最长转录本序列代表Unigene基因序列

4、组装结果统计表格

注意Unigene基因数量多少,数量过多,拼接结果差(常见作物正常基因数量2-3万,拼接的话6-9万结果不错)

N50:计算方式,所有序列计算全长,N50越大说明拼接长片段多

5、无参/有参区别

a.无参适用范围广

b.软件分析依赖算法,存在误差错误,对于相似基因无法辨别装成一个基因。

c.基因表达量较低,会把较长基因装断,成俩个较短基因

d.无法判断是否污染,对分析结果影响大

6、组装结果不好,如何优化

如果200-300bp数据较多,其可靠性低,如果不进行定量,可以过滤掉。

定量后,表达量低,无read支持转录本,可丢掉。

7、组装方式:合并组装/分组组装

合并组装:同一个物种建议合并组装

分组组装:特殊需求,一个物种的两个亚种,一个植株的不同组织部位。只有最长转录本,对定量结果有一定影响。

两个物种做两个无参组装再进行比对。

  • CDS预测

结果文件:BMK_5_Unigene_Structure——CDS

best:筛选出最好的蛋白序列,但不一定是最完整。文件夹中:

cds-序列文件:ORF:5prime_partial 无起始密码子/complete完整的/interal 中断的,既无起始密码子也无终止密码子/3prime_partial 无终止密码子

pep-翻译的蛋白序列

gff-关于结构的定义

基因编号是软件输入顺序

complete:在best中提取的 预测的CDS结果中有明确的起始密码子和终止密码子

Transdecoder软件预测

正向预测三次,每隔一个碱基预测一次,反向也是。

(NCBI可以提交转录本数据预测CDS)

  • Unigene功能注释

 Blastx蛋白序列比对NR,Swissprot,COG,KOG,eggNOG,KEGG,Pfam

百迈克筛选条件:evalue<1e-5

blast2go软件:GO

参考NCBI数据关系,关联出GO结果

注释结果文件:BMK_4_Unigene_Anno

All_Database_annotation:筛选基因常用表格

NR注释:比对来源物种图

可以只注释一个物种:例如把蛋白序列只以金银忍冬注释

  • 定量及相关性分析

 定量软件:RSEM 针对转录本进行定量,累加到Unigene。

判断是否表达可参考文献设定标准。FKPM<1/5/10

样品间相关性评估:皮尔逊相关系数r^2>0.8 认为相关性比较好

  • 差异分析及差异基因富集分析

差异分析软件:有生物学重复:DEASEQ2,DESeq,edgeR

筛选条件:FC(log2FC),FDR(PValue) 

差异基因功能富集:GO,KEGG

  • 基因检索方法

寻找目标基因 :根据已知的基因名,在功能注释中进行检索

差异分析结果中找关键基因:根据差异基因的功能富集结果(GO/KEGG),找关键基因。筛选q值 <0.01/0.05

[展开全文]