百迈客农学讲堂

默认教学计划
2692人加入学习
(0人评价)
价格 免费
教学计划
承诺服务

一、同一处理的若干个重复需要做相关性分析:工具——相关性分析——输入基因表达量矩阵文件txt(全基因)——输入样本名称为矩阵文件里的样本名称——r的范围为-1~1(只适用于线性变化);r2的范围在0~1(适用于非线性变化,推荐使用)——分析结果分为表格和热图(重复间相关性系数在0.9以上认为重复效果很好,低于0.8的样本重复需要剔除)

二、差异基因分析:工具——差异表达基因分析——输入counts文件(count值:reads比对到基因组的数量)——输入样本名称(前面的默认为对照,对照与实验用空格隔开,差异分析只能两两比对,使用多组两两比对实现多组比对)——输入分组配制文件(txt)——筛选差异基因参数:FDR值严格且准确——差异分析软件:推荐使用DESeq(2)-edgeR(用于有生物学重复的差异分析)——FPKM值——基因注释文件

[展开全文]

项目名称:归类比如text11

文件输入:直接选择云平台上的文件;点击上传本地文件;将文件拖到此处(云文件)

左侧会出现自己上传的文件内容

制定作图列:2-5意思是选择了样本文件里面2-5列数据作为参考

指定基因:挑选部分基因和上个参数一样

配色方案:

对数值:表达量低可以自己选择

归一化:按行归一化对基因归一化消除基因表达量差异

聚类方案:对样本和基因聚类分别是列和行聚类

样本顺序不变,按行聚类

行列显示:行基因名称过大图不美观

样本字号:图美观

提交1min得结果

 

韦恩图绘制

输入文件:样本1、样本2、添加样本、最多6个最少两个,输入文件三种方式,按文件第一列基因ID进行绘制图,文件过大不能全部上传。样本名可以修改。文件格式是txt格式

点击绘图得到结果

GO分类富集

项目名称:归类

Anno:GO和KEGG的功能注释信息总表

GO.list、GOTree.stat、KEGG.ko、KEGG.pathway

Gene.id:必须包含在总表内,普通文本格式

GO top li:选择多少行进行绘制。筛选其中重要的部分,p值筛选差异显著性高的,前20填20

 

 

 

[展开全文]

热图可以看出质量以及差异

项目名称的目的及时进行归类

文件输入的三种方式:点击选择云文件 

                                 点击上传(本地文件)

                                  文件拖到上传文件处

第一行是样本名称

制定作图列:作图的列

配色方案     可以选择

对数取值:为了当表达量特别大时,需要让表达量进行统一缩小化,所以就对表达量进行统一对数只

归一化: 主要是对基因进行归一化,所以按行归一化

聚类方式:为了不打乱样本排列,一般按行聚类

行列显示:

[展开全文]

TE

[展开全文]
方婷 · 2020-02-15 · 该任务已被删除 0

序列比对和转录本的拼接——定量分析

新基因的鉴定

基因功能注释

基因定量及生物学重复相关性分析——样本的良好度,结果是否可靠

差异表达基因分析——实验目的

差异基因功能富集分析——差异基因的功能偏向性

比对效率统计,基因组比对率没有比对上——杂质序列,数据的利用率,样本和基因组的比对;比对效率60%可以用,说明样本序列60%可以用,若过低的话可以换一个基因组或做无参,尽量选择同一个物种。

测序为mRNA基因组为外显子,基因间区越多说明后期检测到的新基因可能越多,也会包含一些内含子,应用的是二代测序,转录本拼接建议采用三代测序,结果更可靠

一般选用大于等于2个外显子并能翻译成蛋白质作为新基因,新基因可能在NCBI中比对到序列,那么就可以将其作为已知基因进行研究

基因文件报告格式一般为GFF,9列

基因序列一般有两种(DNA序列既包括从开始到结束,包含内含子;转录序列)一个基因有多个转录本,最长的那个转录本是基因序列。

不同物种氨基酸蛋白比对率高,核酸水平差异率高比对率低,用BLAST蛋白比对,得到蛋白的功能。GO不是直接比对出来的根据BLAST和NR关联出来的。KEGG、NR、Swiss-Port常用;NR、Swiss-Port相似包含蛋白的详细信息,NR是根据NCBI非冗余的信息,Swiss-Port另一个机构收录的蛋白信息,信息量少但准,精。NCBI信息最全。

NR文件第二列为NCBI比对率最高的蛋白编号,E值小于10的负5次方为好第四列相似度,相似度越高两个蛋白序列相似度越高,最后一列为检索结果

OS是物种信息,OX物种编号,GN是蛋白名字缩写,PE证据支持(1-6方式),,第一个单词是蛋白名字,SN是蛋白版本

GO功能数据库网络层次结构,不同分支不同级别功能,类似食物链,同一物种不同食物链处于不同营养级。GO文件第一列基因ID第二列是有多少个功能,第三列及以后是包含的功能。

KEGG标注某个基因处于哪个通路具有什么功能。每个通路一个图片。

Pfam蛋白功能域的收录,比对蛋白功能域,检测WRKY家族那些基因收录到其中。第二列为结构域编号,第三列为蛋白结构域属于哪个家族一个基因可能会比对到好几个家族

FPKM基因表达量,片段定量,双端测序,基因表达水平指标,RPKM单端测序reads定量。做基因共表达、热图等等。某个基因在所有样本中都没有表达,或者表达量很低没有检测到属于正常现象。样本好坏也有关系。

根据样本表达量看样本相关性,一般实验三个重复,排除样本特异性,实验操作不当。样本相关性高,实验可靠。相关系数,皮尔逊相关系数平方大于0.8,相关性高。

差异表达筛选,p值比FDR更宽松一点,Fold change>=2倍差异值,FDR<0.01,FDR是对p值的校正。将FDR值放大可以获得更多数据。

火山图横坐标差异基因倍数值log,恒虚线是FDR值筛选条件0.01对数为2,纵两条2倍数关系正负1,红色为上调,绿色为下调,黑色不满足条件。

功能富集

GO差异表达基因富集分类横坐标GO的部分功能。主要是二级功能。柱形图越高代表这个功能的基因越高。

topgo图

把所有结点包括子节点做的显著性分析,然后挑选10个最显著富集的节点方块代表红色显著性最高颜色越浅显著性越低

对每一个GO功能进行富集的结果,第一列GO基因功能描述,第二列什么功能描述,第三列差异基因中GO功能占的比例,第四列所有基因GO功能比例,第五列富集因子,数值越高富集越好,p值和q值显著性,最后一列差异基因。通过显著性排序的结果。

点图

对之上比例数量q值的展示

KEGG两个图

差异基因标注在通路中,不同颜色不同差异表达,红色上调,绿色下调,蓝色表达不一致(上下调都有)。

富集了显著性最好的20个进行展示,颜色不同显著性不同颜色越深显著性越差红色显著性最高。

第一列KEGG通路标号

第二列通路名称

第三列差异基因站通路比例

第四列所有基因通路中注释基因的比例

五富集因子大于1即好

显著性

差异基因

 

[展开全文]
马萌 · 2020-02-13 · 该任务已被删除 4