冗余的reads删去
SNP检测:非同义突变的(编码区)进行注释
InDel检测: 编码区小片段的插入和缺失的基因进行注释
SV:大片段的结构变异插入、缺失、倒位的结构变异的基因进行注释。
测序数据质控:Fstaq格式存储
若下机的数据是64位的,则需要将64位的数据转化为33位的。
对第四行的数据进行统计(测序质量),每一种符号对应的质量信息。
Clean_Base表明自己的数据量;Q30:1000个碱基只有一个可能存在错误;是否达到了合同的要求 (越高越好),样品好,测序质量高;GC%含量可以看一下样本之间有没有差异;
Q40表示10000碱基只有一个碱基可能发生错误。
对测序的reads进行ACGT是否发生了分离:双端测序数据具有两条reads,纵坐标值越小越好;