4、标记开发与分型
实验室常用标记(SSR等)
SNP
4、标记开发与分型
实验室常用标记(SSR等)
SNP
GWAS群体要求300以上
tassel填补缺失基因型
群体结构矩阵
亲缘关系计算方法:系谱法
标记基因型欧式算法
计算软件:SPAGeDi
一次接受量2000到4000
1. LD 衰减 看标记的密度够不够
2.
1. 重测序?
2. 连锁不平衡?
- LD ?
3. 群体规模300以上
4.
GWAS H0(原假设): y=u+e
H1: y=u+Xb +e
若 H0成立概率很低,则拒绝原假设,即SNP与表型相关
两类错误:
I类错误:假阳性,拒绝真实的H0, a
II类错误:假阴性,接受错误的H0;b
power(功效):拒绝错误H0的概率:1-b
固定效应:群体效应,
随意效应:interest on populaton behind the levels
EMMA: two dimensions to one dimension optimization/多微效基因
MLMM: 低效应位点效率很高/将大效应位点作为背景再次进行检测
FARM-CPU/
群体结构来源: 地理隔离/人工选择
群体结构分析: 1.系统发生数
进化树上色与调整软件: http://itol.embl.de
NJ树:(mega) 适用于样本间差异不大的样品;种间
ML树(RAxML):纲水平
贝叶斯树(ExaBayes):
2. model-base 的群体结构分析/STRUCTURE/ADMIXTURE(标记要根据LD进行过滤,去冗余)
分析原理:将大群体分成K个服从Hardy-Weinberger 平衡的亚群,将个材料归到每个亚群,计算第i个材料其基因组变异源于第K个亚群的可能性,用Q值表示,Q越大,表示该材料来自这个亚群的可能性越大。
STRUCTURE/贝叶斯/德尔塔K/最高点
ADMIXTURE/更快,C ross-V alidation error最低的点位最优点
Q矩阵/群体结构矩阵,作为固定效应/
CLUMPP/clumpak合并多次Q矩阵综合结果
pophelper/群体结构条形图
PCA分析/uncorrelated/Var(PC1)>Var(PC2)
GWAS项目方案设计
r^ VS D'(不适合小样本)
群体类型: 种质资源材料/遗传变异丰富,可以同时对多个性状进行分析,群体结构复杂,稀有变异多,遗传信息丢失明显
人工群体/包括F2,半同胞家系,动物远交群体,遗传变异不够丰富
表型调查
数量性状,多基因控制,要符合正态分布,或者用多年多点的数据分开分析后综合结果或取BLUP值(综合考虑环境对性状的影响)作为性状值进行关联分析;
质量性状,单基因控制,可转换成0,1表示;每个群体选取近似的样本。
分级性状,受多基因控制,表型分布类似质量形状,例如抗性性状,需要提供每一个个体精确的测量数据;
多指标性状。多个指标同时度量并找出主成分因子。
标记开发类型
NGS:SNP/small indel/CNV/SV
填补方法:依赖reference panel(impute2)/不依赖 (knn,fill genoty)
测序深度: 比较纯的自交系:5*
有较多杂合位点的材料: 10*以上
简化基因组测序推荐每个Tag 10*以上
遗传进化+选择性清除+GWAS?????