全基因组关联分析(GWAS)是对具有遗传多样性丰富的群体中每个个体进行全基因组重测序。结合目标性状的表型数据,基于一定的统计方法进行全基因组关联分析,可以获得影响目标性状表性变异的染色体区段或基因位点。
GWAS研究的应用领域
GWAS可以用于遗传进化,功能基因定位,多组学联合分析等研究,近年来在nature, nature genetics,nature biotechnology等杂志上发表了多篇高水平论文,涉及棉花,水稻,大豆等多个物种。
本课程分为十个系列课程
1. GWAS项目方案设计。
内容包括全基因组关联分析简介,材料选择与群体设计,表型调查,标记开发与分型策略的选择,结合GWAS的高分文章策略。
2. GWAS基本分析内容与结果解读。
标准分析内容包括数据指控,LD衰减分析,群体结构评估,全基因组关联分析,显著位点的筛选,单体型block分析,候选基因的确定于注释。另外还有百迈客云数据深度挖掘的讲解。
3. GWAS分析原理-群体结构与亲缘关系。
内容包括群体结构及其对GWAS的影响,群体结构的推断方式,亲缘关系及其对GWAS的影响,亲缘关系的计算方法。
4. 重测序与简化基因组测序技术原理。
内容包括全基因组重测序技术原理,Hiseq测序技术流程,重测序应用范围,SLAF技术原理,技术流程,技术特点,技术应用领域等。
5. 序列比对、SNPCalling与SLAF标记开发。
内容包括序列比对,变异检测和SLAF标记开发的原理,方法等。
6. 序列比对软件实操与SAM文件格式讲解。
内容包括全局比对,局部比对,短序列比对的原理,应用场景及操作命令等,短序列比对结果文件的解读,实操演示。
7. SNPCalling软件实操与VCF文件格式讲解。
内容包括SNP calling流程讲解,VCF文件格式与具体内容讲解,GATK软件流程讲解及实操演示。
8. 常用GWAS统计学方法和模型简介。
内容包括基本统计学概念,case/control关联分析,复杂性状使用简单统计方式是否可行的探讨,复杂统计模型简介。
9. 上机操作:群体结构与亲缘关系分析。
内容包括使用TASSEL软件进行基因型填补介绍,STRUCTURE和ADMIXTURE的使用方法介绍,STRUCTURE和ADMIXTURE的结果整理,使用TASSEL进行PCA和kinship的计算等相关介绍和实操演示。
10. 上机操作:GWAS常见软件与模型实操(GLM/MLM/CMLM/EMMAX/Fast-LMM)。
内容包括使用TASSEL进行关联分析,GAPIT关联分析命令行,EMMAX与FAST-LMM命令行,使用CMplot对结果进行绘图等相关介绍和实操演示。