百迈客农学讲堂

默认教学计划
2766人加入学习
(0人评价)
价格 免费
教学计划
承诺服务

1、什么是杂合度和杂合区域?

2、N50是什么?

3、同源物种的模式作物进行基因预测

4、基因组完整性评估

5、功能基因注释

6、cicler图:GC含量、转座子....

 

[展开全文]

无参的不会丢掉任何基因组

[展开全文]
王本初 · 2020-06-28 · 该任务已被删除 0
  1.  
[展开全文]
王本初 · 2020-06-26 · 该任务已被删除 0

SNP密度高,倒位

6. 全基因组复制:

利用Ks 分析方法:直系:不同物种:物种分歧

                             旁系:同一物种:复制

 

Ks越小,代表物种越年轻

 

基因共线性:用MCSCAN

基因组共线性:Mumer

[展开全文]

相关性 0.8以上

差异表达基因分析

共表达模式聚类分析

fpmk 

 

[展开全文]

unigene 组装看total number 和N50

与有参区别 无法判断有误污染,可能组装更多

合并组装和分组组装

cds预测,蛋白参考,蛋白序列,编码框

best 最好的 compelet完整

orf type 完整、5'端缺失、片段、3‘’端缺失

相关性表示生物学重复可靠性,大于0.8好

  

[展开全文]
杨颖bf9 · 2020-04-15 · 该任务已被删除 0

聚类热图  生物学重复的质控

可以直观展现我们重点基因的热图,

www.biocloud.net

按行归一化  

按行、列聚类

[展开全文]
  1. title:薇甘菊基因组解析其快速生长的分子机制
  2. 多组学:基因组 比较基因组 代谢组 转录组 宏基因组

 

[展开全文]

1.看比对效率判断结果好坏

2.水稻常用的参考基因组9311(籼稻),日本晴(粳稻)

[展开全文]
Vick Wu · 2020-02-27 · 该任务已被删除 0

二代测序

基因表达情况,基因与表型

无参,二代测序拼接难,定量不准

 

 

 

[展开全文]

无参转录组

[展开全文]
饶丹 · 2020-02-26 · 该任务已被删除 0

有参转录组培训大纲步骤如下:

有参转录组最重要的内容:序列比对然后对转录本进行拼接

新基因鉴定

基因功能注释:ID 用的 较多

基因定量及生物学重复相关性分析

差异表达基因筛选:和实验目的有很大关系

差异基因功能富集分析

根据结题报告来看:

第一部分:序列比对和转录本拼接

1.如何选择参考基因组:如近源物种, 通过比对进行测试,常用的软件是TopHat2 和Bowtie2 进行比对,将测序序列与基因组 比对,允许一定错配,看多少的reads能比对上。

看结果好不好第一先看比对效率好不好 ,能告诉测序样品和参考基因组的匹配程度,看数据利用率,越高越好。Mapping rate.常见作物一般比对效率一般能打到80%以上。至少60%以上。最好是同物种,实在不行就用无参。

2.将比对结果转化到基因组上的位置信息及对转录本进行拼接

与无参拼接有一定差别,更有针对性,对一个区域进行拼接,无参是全部打混,无参有可能会把相似性比较高的序列拼接到一起,通过拼接有参拼接可得到多个转录本的结构,对转录本进行定量。

不同区域的数目分布图 按道理应该是都会被转录,可能是因为参考基因组预测的问题,在基因间区的更可能是新基因或者非编码基因。间区越多意味着后期鉴定到的新基因可能更多。

在基因组注释较为完全的物种中,比对到Exon(外显子)的reads含量最高,比对到Intron(内含子)区域的reads来源于pre-mRNA的残留及可变剪切过程中发生的内含子滞留事件导致的,而比对到Intergenic(基因间区)的reads是因为基因组注释不完全。

三代全长不用拼接,可靠性会更高

2.新基因的鉴定

使用string tie 进行拼接,与原有基因组注释进行比较,挖掘新转录本和新基因,这个新基因是针对用的参考基因组本身,可能会存在NCBI等数据库。如果NCBI没有可以做一些额外的分析,如比较基因组分析等。需要去判断此是否为新基因:首先是判断的第一标准是拼接出来位于基因间区,可能是潜在新基因,第二是进行粗略过滤,比如过滤到只有1个外显子的序列,因为大部分是多外显子基因,第三是判断是否有编码区,预测编码区,潜在ORF,过滤到编码的氨基酸小于50的过滤到。剩下的可能是含2-3个以上外显子编码蛋白质的新基因。

?不同软件影响大么 诺和用的 Cufflinks 

新基因里的gff是筛选过的蛋白质系信息,第一列为染色体信息,最后一列命名信息:

phase 可能是移码信息,针对CDS

 

序列在Fa文件,是新基因的最长转录本序列

因为一个基因可能有多个转录本,就列出最长 转录本代表基因序列,不一定能包含所有外显子序列,但是相对而言要全一些。

也会提供DNA序列,含内含子。

新基因对非常见物种很有意义

3.基因功能注释

数据库:NR swiss-prot GO COG KOG Pfam KEGG 

BLast 软件,除了GO外,是通过核酸比对蛋白,比对蛋白,GO是与NR联系起来 的。根据NR结果再进行关联。KEGG是通过KOBAS软件得到KEGG 结果,不是直接用的KEGG官网。z

最常用的是NR swiss-prot Pfam GO KEGG

这5个数据库

NR和swiss-prot内容相似,都是蛋白质数据,

NR是NCBI收集整理的,稍微全些,更全

Swiss-prot数据较少,但结果一般都是有数据支持,更准

NRE值小于10-5,才觉得比较可靠,有多个的时候挑最高的。Annotation 要用全称

 

Swiss-prot 结果和NR类似,但稍有差别:前面一样蛋白全面和物种信息,后面还会有物种编号:OX,GN基因缩写(可用简写检索),PE蛋白收录后的证据支持方式(由1到6进行编号),SV代表蛋白在序列库重的版本号

GO数据库:是关于功能的数据库,很大,数据信息是个网络的层次结构,分3个一级功能,每个一级功能下面分了N个下级,有些GO结点在不同分支中处于的层次级别不一样。

是通过NR区关联的,注释结果会比较细,文件中GO—ANNO代表注释出来几个功能,可通过此分析去对目标功能的关键词进行检索,

KEGG:是代谢通路数据库,通过KOBAS软件获取的,与KEGG官网的分析相似,KEGG文件有2类,第1类是注释结果文件,K号可在KEGG官网搜索到的

Pfam:收录蛋白结构功能域信息,第二列结构域编号,第三列结构域编号对应的蛋白家族名称

4. 基因定量及生物学重复相关性分析

软件对转录本进行定量,将转录本定量结果累加,来代表基因的定量结果

软件为:用string tie

常用的是用FPKM这种归一化方式来表示,通过强度和 测序量来表示基因表达水平,RPKM是用的Read而FPKM是对fragment进行定量,是 成对的REads ,因为现在是双端测序,分子代表比对到转录本上的片段数目,分母是所有比对到基因昂的fragments数目及转录本长度,对结果归一化,实际是排除了测序量和转录本的影响。是每百万fragments中来自某一基因每千碱基长度的fragments数目,其同时考虑了测序深度和基因长度对fragments计数的影响,是目前最为常用的基因表达水平估算方法。般情况下,FPKM数值0.1或者1作为判断基因是否表达的阈值,不同的文献所采用的阈值不同。

二代测序一般测出来的基因都是中高表达的基因,会对低表达的基因测的较少。

其中对于多比对的reads,比对时会在定量的时候进行分配。

需要对样品相关性进行分析

3个重复

一般是通过相关系数分析,佩尔逊相关系数R进行分析,是直接对表达量进行分析,>0.8那么重复较好,Encode计划建议皮尔逊相关系数的平方(R2)大于0.92(理想的取样和实验条件下),具体的项目操作中,我们要求生物学重复样品间R2至少要大于0.8,尤其是小于0.7时要剔除,否则需要对样品做出合适的解释,或者重新进行实验。。

6. 差异基因筛选

若有明确目标,可直接寻找目标基因,通过ID查询

若是对处理和实验进行分析,要寻找相关基因,那么就要首先关注差异表达基因。所以需要关注差异基因。

差异分析 软件较多,其中DEseq2 edgeR 是使用率较高的软件,算法不一样,可能会有差异。只能根据结果来看。

差异表达基因的条件一般是从表达倍数来看,另外一个通过显著性进行检验,一般是2倍以上,P一般是0.01或者0.05以下。Pvalue值还可以进行矫正,会得到FDR一个值。

可通过调整参数来要多的结果或者少的差异基因结果。2倍差异是文献中最多的,可放宽到1.5.或者将P降低到0.05

结果文件展示

火山图:如果想做调整时,可 通过图来判断是否调整或者调整如何

横坐标达标差异基因表达量贝倍数值的对数,纵坐标是FDR的10的对数值,1横2纵分成了6个区域,横大于2纵大于+-1

FDR是差异显著性结果

Log2FC 是差异倍数值

差异分析时是对抗噪值进行的分析,cont数,不是直接的表达量结果,做qPCR验证从差异基因中挑选差异基因明显的或者目标基因。

会从所有检测结果中,挑选能在至少一半的样品中表达情况能超过阈值,那么可用于差异分析,否则就不用于差异分析,阈值一般设为CPM>1,

6 差异基因功能富集分析

GO富集结果:柱状图主要是以2级功能来画的,根据3个一级功能分类。

网络图是通过软件做的 topgo,是把每个结点和子节点的显著性分析结果,显著性的都展现出来,但是只画出最显著的结点,下面的不画,画上面,而且只展示最显著的十节点,用方块表示。富集因子enrich factor:差异基因所占比列除总基因所占比例,越高越好.

topgo数据来源于注释结果

Pvalue和qvalue都是对显著性的描述

KEGG:通路图

富集图:针对每一个通路差异基因注释的结果进行的富集分析,筛选的显著性最好的前20个,形状大小代表差异基因大小,颜色表矫正后的显著性(qvalue)

[展开全文]
樊女士 · 2020-02-24 · 该任务已被删除 0

背景:分类 性多样性

进化 

门纲目科属种 可下设亚 级别单位

基因组+比较基因组学+转录组学+共表达分析(WGCNA)

挖掘性二态性关键通路及基因,提供基因组,及相关性状的调控机理

性别偏好基因研究 暂未于相关性状联系起来

基因组:40X

调研图 推测大概基因组大小 

IPA :二代数据contig 组装 三代数据填充  PIP组装及纠错 WTDBG组装 提高N50水平 到草图水平利用HIC辅助组装进行染色体群组划分,确定顺序和方向,将基因组组装提升到染色体 水平

不同组织的转录组做基因预测

系统进化分析

进化比较揭示系统进化关系

对共同祖先,基因扩张

GO和KEGG富集

 

[展开全文]

* News are in - the source doc/NEWS.Rd - installed R's doc/NEWS and doc/NEWS.pdf * Details about single subversion (svn) commits are available, e.g., by svn log

[展开全文]

重点:

差异表达基因分析

差异基因功能富集分析

 

[展开全文]
李盈曦___368 · 2020-02-19 · 该任务已被删除 0

数据库NR更全,Swiss更准,GO功能数据库,  

[展开全文]
杨利艳 · 2020-02-18 · 该任务已被删除 0

total reads 大于60%

[展开全文]
高天一 · 2020-02-17 · 该任务已被删除 0