百迈客农学讲堂 - 百迈客基因学院 - 专业的生物信息培训班平台

统一基因

[展开全文]

杜文a66 · 2022-03-09 · 【在线工具】热图、veen图、GO和KEGG图形绘制讲解 0

1、什么是杂合度和杂合区域？

2、N50是什么？

3、同源物种的模式作物进行基因预测

4、基因组完整性评估

5、功能基因注释

6、cicler图：GC含量、转座子....

[展开全文]

小何da6 · 2021-03-16 · NC文献分享-薇甘菊入侵研究文献讲解 0

2代--双端

3代--单端

[展开全文]

王艳霞 · 2021-03-15 · 微生物多样性云平台实操及个性化讲解 0

无参的不会丢掉任何基因组

[展开全文]

王本初 · 2020-06-28 · 该任务已被删除 0

[展开全文]

王本初 · 2020-06-26 · 该任务已被删除 0

SNP密度高，倒位

6. 全基因组复制：

利用Ks 分析方法：直系：不同物种：物种分歧

旁系：同一物种：复制

Ks越小，代表物种越年轻

基因共线性：用MCSCAN

基因组共线性：Mumer

[展开全文]

游崇娟 · 2020-05-16 · 比较基因组学在基因组研究中的应用 0

相关性 0.8以上

差异表达基因分析

共表达模式聚类分析

fpmk

[展开全文]

杨颖bf9 · 2020-04-16 · 【在线工具】相关性分析、差异基因分析、转录因子及基因功能注释 0

unigene 组装看total number 和N50

与有参区别无法判断有误污染，可能组装更多

合并组装和分组组装

cds预测，蛋白参考，蛋白序列，编码框

best 最好的 compelet完整

orf type 完整、5'端缺失、片段、3‘’端缺失

相关性表示生物学重复可靠性，大于0.8好

[展开全文]

杨颖bf9 · 2020-04-15 · 该任务已被删除 0

[展开全文]

王停停8c2 · 2020-04-01 · 比较基因组学在基因组研究中的应用 0

聚类热图生物学重复的质控

可以直观展现我们重点基因的热图，

www.biocloud.net

按行归一化

按行、列聚类

[展开全文]

lmy · 2020-03-12 · 【在线工具】热图、veen图、GO和KEGG图形绘制讲解 0

title：薇甘菊基因组解析其快速生长的分子机制
多组学：基因组比较基因组代谢组转录组宏基因组

[展开全文]

angelica · 2020-03-04 · NC文献分享-薇甘菊入侵研究文献讲解 0

1.看比对效率判断结果好坏

2.水稻常用的参考基因组9311（籼稻），日本晴（粳稻）

[展开全文]

Vick Wu · 2020-02-27 · 该任务已被删除 0

二代测序

基因表达情况，基因与表型

无参，二代测序拼接难，定量不准

[展开全文]

徐倩 · 2020-02-27 · 全长转录组概述及应用介绍 0

无参转录组

[展开全文]

饶丹 · 2020-02-26 · 该任务已被删除 0

有参转录组培训大纲步骤如下：

有参转录组最重要的内容：序列比对然后对转录本进行拼接

新基因鉴定

基因功能注释：ID 用的较多

基因定量及生物学重复相关性分析

差异表达基因筛选：和实验目的有很大关系

差异基因功能富集分析

根据结题报告来看：

第一部分：序列比对和转录本拼接

1.如何选择参考基因组：如近源物种，通过比对进行测试，常用的软件是TopHat2 和Bowtie2 进行比对，将测序序列与基因组比对，允许一定错配，看多少的reads能比对上。

看结果好不好第一先看比对效率好不好，能告诉测序样品和参考基因组的匹配程度，看数据利用率，越高越好。Mapping rate.常见作物一般比对效率一般能打到80%以上。至少60%以上。最好是同物种，实在不行就用无参。

2.将比对结果转化到基因组上的位置信息及对转录本进行拼接

与无参拼接有一定差别，更有针对性，对一个区域进行拼接，无参是全部打混，无参有可能会把相似性比较高的序列拼接到一起，通过拼接有参拼接可得到多个转录本的结构，对转录本进行定量。

不同区域的数目分布图按道理应该是都会被转录，可能是因为参考基因组预测的问题，在基因间区的更可能是新基因或者非编码基因。间区越多意味着后期鉴定到的新基因可能更多。

在基因组注释较为完全的物种中，比对到Exon（外显子）的reads含量最高，比对到Intron（内含子）区域的reads来源于pre-mRNA的残留及可变剪切过程中发生的内含子滞留事件导致的，而比对到Intergenic（基因间区）的reads是因为基因组注释不完全。

三代全长不用拼接，可靠性会更高

2.新基因的鉴定

使用string tie 进行拼接，与原有基因组注释进行比较，挖掘新转录本和新基因，这个新基因是针对用的参考基因组本身，可能会存在NCBI等数据库。如果NCBI没有可以做一些额外的分析，如比较基因组分析等。需要去判断此是否为新基因：首先是判断的第一标准是拼接出来位于基因间区，可能是潜在新基因，第二是进行粗略过滤，比如过滤到只有1个外显子的序列，因为大部分是多外显子基因，第三是判断是否有编码区，预测编码区，潜在ORF，过滤到编码的氨基酸小于50的过滤到。剩下的可能是含2-3个以上外显子编码蛋白质的新基因。

？不同软件影响大么诺和用的 Cufflinks

新基因里的gff是筛选过的蛋白质系信息，第一列为染色体信息，最后一列命名信息:

phase 可能是移码信息，针对CDS

序列在Fa文件，是新基因的最长转录本序列

因为一个基因可能有多个转录本，就列出最长转录本代表基因序列，不一定能包含所有外显子序列，但是相对而言要全一些。

也会提供DNA序列，含内含子。

新基因对非常见物种很有意义

3.基因功能注释

数据库：NR swiss-prot GO COG KOG Pfam KEGG

BLast 软件，除了GO外，是通过核酸比对蛋白，比对蛋白，GO是与NR联系起来的。根据NR结果再进行关联。KEGG是通过KOBAS软件得到KEGG 结果，不是直接用的KEGG官网。z

最常用的是NR swiss-prot Pfam GO KEGG

这5个数据库

NR和swiss-prot内容相似，都是蛋白质数据，

NR是NCBI收集整理的，稍微全些，更全

Swiss-prot数据较少，但结果一般都是有数据支持，更准

NRE值小于10-5，才觉得比较可靠，有多个的时候挑最高的。Annotation 要用全称

Swiss-prot 结果和NR类似，但稍有差别：前面一样蛋白全面和物种信息，后面还会有物种编号：OX，GN基因缩写（可用简写检索），PE蛋白收录后的证据支持方式（由1到6进行编号），SV代表蛋白在序列库重的版本号

GO数据库：是关于功能的数据库，很大，数据信息是个网络的层次结构，分3个一级功能，每个一级功能下面分了N个下级，有些GO结点在不同分支中处于的层次级别不一样。

是通过NR区关联的，注释结果会比较细，文件中GO—ANNO代表注释出来几个功能，可通过此分析去对目标功能的关键词进行检索，

KEGG:是代谢通路数据库，通过KOBAS软件获取的，与KEGG官网的分析相似，KEGG文件有2类，第1类是注释结果文件，K号可在KEGG官网搜索到的

Pfam:收录蛋白结构功能域信息，第二列结构域编号，第三列结构域编号对应的蛋白家族名称

4. 基因定量及生物学重复相关性分析

软件对转录本进行定量，将转录本定量结果累加，来代表基因的定量结果

软件为：用string tie

常用的是用FPKM这种归一化方式来表示，通过强度和测序量来表示基因表达水平，RPKM是用的Read而FPKM是对fragment进行定量，是成对的REads ,因为现在是双端测序，分子代表比对到转录本上的片段数目，分母是所有比对到基因昂的fragments数目及转录本长度，对结果归一化，实际是排除了测序量和转录本的影响。是每百万fragments中来自某一基因每千碱基长度的fragments数目，其同时考虑了测序深度和基因长度对fragments计数的影响，是目前最为常用的基因表达水平估算方法。般情况下，FPKM数值0.1或者1作为判断基因是否表达的阈值，不同的文献所采用的阈值不同。

二代测序一般测出来的基因都是中高表达的基因，会对低表达的基因测的较少。

其中对于多比对的reads,比对时会在定量的时候进行分配。

需要对样品相关性进行分析

3个重复

一般是通过相关系数分析，佩尔逊相关系数R进行分析，是直接对表达量进行分析，>0.8那么重复较好，Encode计划建议皮尔逊相关系数的平方(R²)大于0.92(理想的取样和实验条件下)，具体的项目操作中，我们要求生物学重复样品间R²至少要大于0.8，尤其是小于0.7时要剔除，否则需要对样品做出合适的解释，或者重新进行实验。。

6. 差异基因筛选

若有明确目标，可直接寻找目标基因，通过ID查询

若是对处理和实验进行分析，要寻找相关基因，那么就要首先关注差异表达基因。所以需要关注差异基因。

差异分析软件较多，其中DEseq2 edgeR 是使用率较高的软件，算法不一样，可能会有差异。只能根据结果来看。

差异表达基因的条件一般是从表达倍数来看，另外一个通过显著性进行检验，一般是2倍以上，P一般是0.01或者0.05以下。Pvalue值还可以进行矫正，会得到FDR一个值。

可通过调整参数来要多的结果或者少的差异基因结果。2倍差异是文献中最多的，可放宽到1.5.或者将P降低到0.05

结果文件展示

火山图：如果想做调整时，可通过图来判断是否调整或者调整如何

横坐标达标差异基因表达量贝倍数值的对数，纵坐标是FDR的10的对数值，1横2纵分成了6个区域，横大于2纵大于+-1

FDR是差异显著性结果

Log2FC 是差异倍数值

差异分析时是对抗噪值进行的分析，cont数，不是直接的表达量结果，做qPCR验证从差异基因中挑选差异基因明显的或者目标基因。

会从所有检测结果中，挑选能在至少一半的样品中表达情况能超过阈值，那么可用于差异分析，否则就不用于差异分析，阈值一般设为CPM>1，

6 差异基因功能富集分析

GO富集结果：柱状图主要是以2级功能来画的，根据3个一级功能分类。

网络图是通过软件做的 topgo，是把每个结点和子节点的显著性分析结果，显著性的都展现出来，但是只画出最显著的结点，下面的不画，画上面，而且只展示最显著的十节点，用方块表示。富集因子enrich factor：差异基因所占比列除总基因所占比例，越高越好.

topgo数据来源于注释结果

Pvalue和qvalue都是对显著性的描述

KEGG：通路图

富集图：针对每一个通路差异基因注释的结果进行的富集分析，筛选的显著性最好的前20个，形状大小代表差异基因大小，颜色表矫正后的显著性（qvalue）

[展开全文]

樊女士 · 2020-02-24 · 该任务已被删除 0

背景：分类性多样性

进化

门纲目科属种可下设亚级别单位

基因组+比较基因组学+转录组学+共表达分析（WGCNA）

挖掘性二态性关键通路及基因，提供基因组，及相关性状的调控机理

性别偏好基因研究暂未于相关性状联系起来

基因组：40X

调研图推测大概基因组大小

IPA ：二代数据contig 组装三代数据填充 PIP组装及纠错 WTDBG组装提高N50水平到草图水平利用HIC辅助组装进行染色体群组划分，确定顺序和方向，将基因组组装提升到染色体水平

不同组织的转录组做基因预测

系统进化分析

进化比较揭示系统进化关系

对共同祖先，基因扩张

GO和KEGG富集

[展开全文]

樊女士 · 2020-02-21 · NC文献分享-雷山髭蟾为何存在丰富的性二态特征？ 0

* News are in - the source doc/NEWS.Rd - installed R's doc/NEWS and doc/NEWS.pdf * Details about single subversion (svn) commits are available, e.g., by svn log

[展开全文]

赵明明003 · 2020-02-21 · NC文献分享-薇甘菊入侵研究文献讲解 0

重点：

差异表达基因分析

差异基因功能富集分析

[展开全文]

李盈曦___368 · 2020-02-19 · 该任务已被删除 0

数据库NR更全，Swiss更准，GO功能数据库，

[展开全文]

杨利艳 · 2020-02-18 · 该任务已被删除 0

total reads 大于60%

[展开全文]

高天一 · 2020-02-17 · 该任务已被删除 0

授课教师

课程特色

最新学员

学员动态