百迈客农学—结题报告讲解

默认教学计划
6783人加入学习
(1人评价)
价格 免费
教学计划
承诺服务

一、.有没有基因组:

(1)无参转录组拼接技术

二、Trinity软件:

1:打断、延伸

2:overlap

3:转录本序列

三、Trinity转录本记录

1.命名方式:

(1)得到的转录本序列

>c81126.graph__C0___seq1

>c81126.graph__C0___seq2

来自同一个unigene 

(2)Unigene序列(选择最长转录本序列)

>c0.graph__c0

CCTGT..............CTGG

>.c1000.graph__c0

GTTAC........CCTG

2.组装结果评判

(1)拼装结果组装数量(6-9万)

如果数量太多,拼装结果不好

N50长度越大,拼装结果越好

四、组装方式

1.合并组装(同一个物种)

2.分组组装

(Unigene组装,可能会丢掉部分转录本的信息)

五、CDS预测

transdecode预测:

正反各预测3次,一个基因一个预测结果

best:

complete:完整(明确的起始子和终止子)

5prime_partial (5"缺失)

complete:有起始密码子,终止密码子

internal:缺少起始密码子和终止密码子

六、Unigene 功能注释

NR注释:同源蛋白(来自植物、动物)是否有污染。相应的物种

七、定量相关性分析

相关性:皮尔曼相关系数r,R2越接近1,相关性则越强,<0.8,可能相关性就没那么好。

八、差异分析及差异基因富集分析

差异分析软件:

有生物学重复:DESeq2,DESeq,edgeR

无生物学重复:EBSeq,edgeR

筛选条件:FC(log2FC ),FDR(PValue)

差异基因功能富集

GO

KEGG

基因检索方法

寻找目标基因

根据已知的基因名,在功能注释中进行检索

差异分析结果中找关键基因

根据差异基因的功能富集结果(GO、KEGG),找关键基因

 

[展开全文]

unigene代表拼接的基因的数量。组装结果统计表中主要看unigene的total number和N50 length。total number的数量特别多,说明拼接结果差。所有序列统计全长,全长碱基的个数,从最长的转录本依次排列下来进行累加,当累加起来的数量大于总的碱基数量一半时那一条碱基序列的长度就定义为N50,N50越大,说明组装长序列占的比例越大,组装的越完整。

(Q:total number的unigene很大,视频里面说应该3~5万)

 

无参的劣势:依赖算法,假阳性比较高,可能出现组装错误,相似的基因可能会被装到一个基因中,有污染时影响会非常大。

[展开全文]
  • 无参组装原理及组装方式的选择

1、组装软件:Trinity(软件相关文章)

2、reads 双端分析 150bp 

图1 组装图 

图2 具体组装过程

无Contig数据,提供转录本数据、Unigene数据

3、文件名:Final-Transcript、Final-Unigene

Final-Transcript转录本文件:Fasta文件——EditPlus软件打开

转录本命名方式:c49888.graph_c0_seq1 

c49888.graph:编号

c0:Component (片段集合)

c49888.graph_c0 类似于基因编号

seq1:前缀一样 seq不一样 指不同转录本来自同一个Unigene基因同一个Component

Final-Unigene:Fasta文件——EditPlus软件打开

一个基因有多个转录本,外显子差异,通常选择最长转录本序列代表Unigene基因序列

4、组装结果统计表格

注意Unigene基因数量多少,数量过多,拼接结果差(常见作物正常基因数量2-3万,拼接的话6-9万结果不错)

N50:计算方式,所有序列计算全长,N50越大说明拼接长片段多

5、无参/有参区别

a.无参适用范围广

b.软件分析依赖算法,存在误差错误,对于相似基因无法辨别装成一个基因。

c.基因表达量较低,会把较长基因装断,成俩个较短基因

d.无法判断是否污染,对分析结果影响大

6、组装结果不好,如何优化

如果200-300bp数据较多,其可靠性低,如果不进行定量,可以过滤掉。

定量后,表达量低,无read支持转录本,可丢掉。

7、组装方式:合并组装/分组组装

合并组装:同一个物种建议合并组装

分组组装:特殊需求,一个物种的两个亚种,一个植株的不同组织部位。只有最长转录本,对定量结果有一定影响。

两个物种做两个无参组装再进行比对。

  • CDS预测

结果文件:BMK_5_Unigene_Structure——CDS

best:筛选出最好的蛋白序列,但不一定是最完整。文件夹中:

cds-序列文件:ORF:5prime_partial 无起始密码子/complete完整的/interal 中断的,既无起始密码子也无终止密码子/3prime_partial 无终止密码子

pep-翻译的蛋白序列

gff-关于结构的定义

基因编号是软件输入顺序

complete:在best中提取的 预测的CDS结果中有明确的起始密码子和终止密码子

Transdecoder软件预测

正向预测三次,每隔一个碱基预测一次,反向也是。

(NCBI可以提交转录本数据预测CDS)

  • Unigene功能注释

 Blastx蛋白序列比对NR,Swissprot,COG,KOG,eggNOG,KEGG,Pfam

百迈克筛选条件:evalue<1e-5

blast2go软件:GO

参考NCBI数据关系,关联出GO结果

注释结果文件:BMK_4_Unigene_Anno

All_Database_annotation:筛选基因常用表格

NR注释:比对来源物种图

可以只注释一个物种:例如把蛋白序列只以金银忍冬注释

  • 定量及相关性分析

 定量软件:RSEM 针对转录本进行定量,累加到Unigene。

判断是否表达可参考文献设定标准。FKPM<1/5/10

样品间相关性评估:皮尔逊相关系数r^2>0.8 认为相关性比较好

  • 差异分析及差异基因富集分析

差异分析软件:有生物学重复:DEASEQ2,DESeq,edgeR

筛选条件:FC(log2FC),FDR(PValue) 

差异基因功能富集:GO,KEGG

  • 基因检索方法

寻找目标基因 :根据已知的基因名,在功能注释中进行检索

差异分析结果中找关键基因:根据差异基因的功能富集结果(GO/KEGG),找关键基因。筛选q值 <0.01/0.05

[展开全文]