Vcf文件怎么看?

  • vcf
  • SNP
  • inDel
  • SV
vcf怎么看

什么是Vcf文件?

Vcf,即variant call format,是用来描述SNPINDELSV等变异结果的一种文件格式。我们在使用GATK或者samtoolsSNP calling时,得到的就是vcf格式的文件。那么这个文件该怎么看呢?

例子:

attachments-2017-04-8VMjJaHw58e6f636470f 


VCF文件是文本文件,任意一款文本编辑器都能打开,从上面的例子上看,可以分为以两个号开头的注释说明部分和剩下的主体部分。注释说明部分主要为主体部分出现的一些tag的说明,以key=value形式记录信息,如INFOFORMAT中的DPAPGT等。而主体部分包括一行以号开头的表头信息和其他的数据行,每个数据行记录一个variant的信息,我们做分析所需要的数据就在这里。主体部分每列的信息:

CHROMPOS变异位点所在的染色体名称和位置,从1开始计数,如果是INDEL的话,位置是该INDEL第一个碱基的位置。

IDvariantid。比如call出来的SNPdbSNP数据库中存在,这里就会显示相应的rs号(当然前提是已经和dbSNP数据库做了比较)。

REFALT参考序列的碱基和突变后的碱基。如果有多种不同于参考序列的基因型,在ALT列使用隔开。如变异位点在参考基因组上的碱基为“G”,样品上突变后的基因型为“A”,则REF列为“G”ALT列为“A”;如果突变后的碱基有多个如AC,则ALT可以表示为“A,C”。这里需要注意ALT是针对这个变异位点而言,不针对特定样品。

QUALPhred格式(Phred_scaled)的质量值,表示在该位点存在variant的可能性,值越高,则variant的可能性越大。计算方法:Phred= -10 * log (1-p) pvariant存在的概率。通过计算公式可以看出值为10的表示错误概率为0.1,该位点为variant的概率为90%

FILTER理想情况下,QUAL这个值应该是用所有的错误模型算出来的,这个值就可以代表正确的变异位点了,但是事实是做不到的。因此,还需要对原始变异位点做进一步的过滤。无论你用什么方法对变异位点进行过滤,过滤完了之后,在FILTER一栏都会留下过滤记录,如果是通过了过滤标准,那么这些通过标准的好的变异位点的FILTER一栏就会注释一个PASS,如果没有通过过滤,就会在FILTER这一栏提示除了PASS的其他信息。如果这一栏是一个“.”的话,就说明没有进行过任何过滤。

INFO这一列是variant的详细信息,格式以tag=value形式记录,而tag的说明一般包含在文件开头的注释说明部分。

FORMATNA00001NA00002...):FORMAT这列规定了后边样品每列的格式,NA00001NA00002...)等各列是对应每个样品在这个variant的信息。我们如果要看每个样品的基因型信息,就需要看这几列了。


那样品的基因型怎么看呢?

每个样品的基因型格式都是一样的,通过FORMAT列来定义,如FORMAT列为GT:GQ:DP,样品列为0/1:35:4,则相对应的样品的GT0/1GQ35DP4。那么这些又表示什么呢?我们解释一下经常出现在FORMAT中的tag,你就明白了:

GT样本的基因型(genotype)。两个数字中间用分开,这两个数字表示双倍体的sample的基因型。0 表示样品中有refallele1表示样品中variantallele2表示有第二个variantallele。因此:0/0表示sample中该位点为纯合的,和ref一致;0/1 表示sample中该位点为杂合的,有refvariant两个基因型;1/1 表示sample中该位点为纯合的,和variant一致。如果REFAALTC的话,则0/0就表示AA0/1表示AC1/1表示CC

ADDPADAllele Depth)为sample中每一种allelereads覆盖度,diploid中则是用逗号分割的两个值,前者对应ref基因型,后者对应variant基因型;DPDepth)为sample中该位点的覆盖度。

GQ基因型的质量值(Genotype Quality)Phred格式(Phred_scaled)的质量值,表示在该位点该基因型存在的可能性;该值越高,则Genotype的可能性越大;计算方法:Phred= -10 * log (1-p) p为基因型存在的概率。

PL指定的三种基因型的质量值(provieds the likelihoods of the given genotypes)。这三种指定的基因型为(0/0,0/1,1/1),这三种基因型的概率总和为1。和之前不一致,该值越大,表明为该种基因型的可能性越小。Phred= -10 * log (p) p为基因型存在的概率。


了解了之后,我们就知道,每个样品的基因型是通过GT部分的内容确定的,而深度信息可以通过ADDP来看。再结合CHROMPOSREFALT等,就可以知道每个variant的具体信息了。

以上就是整个vcf文件内容了,了解了上面的信息,就可以根据自己的需要对vcf文件进行查看、处理。最后给大家推荐一款vcf文件的处理工具vcftools,它专门针对vcf文件进行处理,包含过滤、提取、合并、排序、统计等各种功能,软件地址:

https://vcftools.github.io/index.html


  • 发表于 2017-04-07 10:16
  • 阅读 ( 14706 )
  • 分类: 软件工具

你可能感兴趣的文章

相关问题

0 条评论

请先 登录 后评论
不写代码的码农
百迈客

测序服务提供商

12 篇文章

作家榜 »

  1. 祝让飞 118 文章
  2. 柚子 91 文章
  3. 刘永鑫 64 文章
  4. admin 57 文章
  5. 生信分析流 55 文章
  6. SXR 44 文章
  7. 张海伦 31 文章
  8. 爽儿 25 文章

聚圣源汽车头条双胎起名大全男宝宝牛肉汤门店起名eva:q修车tv国学大师起名宝宝带辈分起名字匪我思存操姓男孩起名安卓壁纸李宝宝起名大全集女起名网男猪年宝宝起名宜用字回到未来1迅雷下载gougou.com公司起名法律新闻综合幸福的个人说明乔梁叶心仪最新全文免费阅读打光屁屁睿字起名子王怀远男孩姓庄起的名字好魔仙大道给姓庄的男宝宝起名薄樱鬼下载魔兽冰封王座下载伏魔战记3.9c箱子版男孩起名李姓两个字张哲轩个人资料淀粉肠小王子日销售额涨超10倍罗斯否认插足凯特王妃婚姻让美丽中国“从细节出发”清明节放假3天调休1天男孩疑遭霸凌 家长讨说法被踢出群国产伟哥去年销售近13亿网友建议重庆地铁不准乘客携带菜筐雅江山火三名扑火人员牺牲系谣言代拍被何赛飞拿着魔杖追着打月嫂回应掌掴婴儿是在赶虫子山西高速一大巴发生事故 已致13死高中生被打伤下体休学 邯郸通报李梦为奥运任务婉拒WNBA邀请19岁小伙救下5人后溺亡 多方发声王树国3次鞠躬告别西交大师生单亲妈妈陷入热恋 14岁儿子报警315晚会后胖东来又人满为患了倪萍分享减重40斤方法王楚钦登顶三项第一今日春分两大学生合买彩票中奖一人不认账张家界的山上“长”满了韩国人?周杰伦一审败诉网易房客欠租失踪 房东直发愁男子持台球杆殴打2名女店员被抓男子被猫抓伤后确诊“猫抓病”“重生之我在北大当嫡校长”槽头肉企业被曝光前生意红火男孩8年未见母亲被告知被遗忘恒大被罚41.75亿到底怎么缴网友洛杉矶偶遇贾玲杨倩无缘巴黎奥运张立群任西安交通大学校长黑马情侣提车了西双版纳热带植物园回应蜉蝣大爆发妈妈回应孩子在校撞护栏坠楼考生莫言也上北大硕士复试名单了韩国首次吊销离岗医生执照奥巴马现身唐宁街 黑色着装引猜测沈阳一轿车冲入人行道致3死2伤阿根廷将发行1万与2万面值的纸币外国人感慨凌晨的中国很安全男子被流浪猫绊倒 投喂者赔24万手机成瘾是影响睡眠质量重要因素春分“立蛋”成功率更高?胖东来员工每周单休无小长假“开封王婆”爆火:促成四五十对专家建议不必谈骨泥色变浙江一高校内汽车冲撞行人 多人受伤许家印被限制高消费

聚圣源 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化