Nat Commun|郑厚峰/唐北沙团队发表大型中国人群队列研究:北方汉人群遗传结构比南方汉人群更具同质性

测序中国
基因行业最具影响力的专业媒体  来自北京市

深入了解人类基因组的结构和组成是实现精准医疗的基本条件。在过去的十年中,全世界的科学家们在揭示人类复杂性状、复杂疾病的遗传基础以及人类进化史方面取得了巨大的进展。同时,基于不同祖先人群的深入分析也提高了对基因组变异与人类疾病之间关系的理解。

但事实上,基因组研究在全球人群中却表现出巨大的不平衡,例如欧洲血统个体占所有全基因组关联研究参与者的79%左右。即使在庞大的人类基因组项目中,例如由来自全球15余万参与者组成的跨组学精准医学项目 (Trans-Omics for Precision Medicine, TOPMed),也只有9%的样本是亚洲血统。因此,我们需要大量的基因组数据来了解亚洲人群的遗传基础

中国是亚洲乃至全世界上人口最多的国家。因此,对中国人群的遗传研究有可能使世界20%的人口受益。虽然近期部分研究已针对中国人群展开,以获得全面、独立、高质量的中国人群特异性基因组数据库,包括中国代谢解析计划ChinaMAP(China Metabolic Analytics Project)。但现有的研究和数据对中国人口遗传特征的估算精度仍显不足,仍需要一个更高精度的中国人群特异性参考面板。

2021年,西湖大学生命科学学院牵头启动的大型中国人群队列研究WBBC项目(Westlake BioBank for Chinese),旨在收集不低于10万份深度表型样本,数据集包括广泛的人口统计和人体指标、血清学测试、身体活动、睡眠质量、骨密度等,以更好地了解遗传和环境因素对青少年和老年人生长发育的影响。

WBBC项目启动文章发表在BMJ Open

近日,西湖大学生命科学学院 郑厚峰团队 联合中南大学湘雅医院 唐北沙团队Nature Communications在线发表了题为“Genomic analyses of 10,376 individuals in the Westlake BioBank for Chinese (WBBC) pilot project”的研究文章,系统介绍了WBBC试点项目涉及中国29个行政区10,376个样本的基因组研究结果。研究团队通过全基因组测序(WGS)分析发现,SNX29、DNAH1和WDR1基因的选择特征以及酒精代谢基因的衍生等位基因ADH1A和ADH1B出现于大约七千年前,并且在四千年前的东亚更为常见。此外,基因组遗传证据也支持秦淮线和南岭山脉的相应地理边界,并将汉族划分为不同亚群,同时揭示了北方汉人群遗传结构比南方汉人群更具同质性的特征。

文章发表在Nature Communications

主要研究内容

WBBC数据集特征和变异注释

WBBC试点项目纳入了中国29个行政区10,376例个体,并在NovaSeq 6000平台上对4,535例个体进行WGS测序。在去除污染和重复样本后,对4,480例个体进行下游深入分析和统计。经过分析,共鉴定出81,498,995个变异,包括74,118,191个单核苷酸变异(SNP)和7,380,804个小片段插入和缺失(INDEL)

图1. WBBC数据集概况和变异特征,来源: Nature Communications

研究团队将WBBC中发现的变异与其他现有的数据库进行比较,发现有45,696,726个变异没有出现在其他已有数据库中,为中国人群特有。为了描述这些变异的具体生物学特征,研究人员利用ANNOVAR工具对来自4,480例个体的所有变异进行了注释,发现只有0.98%的变异位于编码区和剪接区,并且错义变异占编码区和剪接区变异的54.22%,剪接变异占29.69%。

图2. WBBC变异特征注释,来源: Nature Communications

全基因组单态密度分数分析与选择偏好

单态密度分数(Singleton density score, SDS)分析是从现代基因组序列推断等位基因频率近期变化的一种方法。通过计算SDS,研究发现了一个位于16p染色体上的重要选择特征基因SNX29。SNX29基因上有30多个SNP位点表现出较强的选择特征,表明该基因组区域的选择显著富集。

此外,研究团队还证实了醇脱氢酶(ADH)基因簇、主要组织相容性复合体(MHC)区域和ALDH2等重要的自然选择信号,这三个选择特征区此前也在日本人群中被确定。例如酒精代谢酶,ADH基因(包括ADH1A、ADH1B、ADH4、ADH5和ADH6)和醛脱氢酶(ALDH2)基因对酒精代谢途径的影响和由此产生的酒精中毒保护作用,这也特征强烈表明了不同种族特有的酒精消费模式。

图3. 全基因组单态密度分数分析,来源: Nature Communications

与此同时,研究团队还评估比较了WBBC和现有参考面板的准确性,揭示了WBBC作为中国人口参考面板的优越性与精度,特别是对于罕见的和低频的变异。

图4. WBBC和现有参考面板的比较分析,来源: Nature Communications

遗传证据支持了地理边界秦淮河线和南岭山脉

研究团队对来自中国29个行政区的2,056个汉族个体和205个少数民族个体进行了主成分分析(PCA)。PC1和PC2反映了中国人群主要的遗传结构,其中PC1呈南北梯度分布,反映了地理位置。汉族群体的遗传差异与秦岭地理边界相对应淮河线和南岭山脉。研究人员估算了来自27个省份汉族人口的祖先组成。在最优的情况下,可分为北方汉人、南方汉人、岭南汉人三种,三者表现出明显的群体差异,中部汉人融合了南北族群的祖先成分。

研究人员还收集了来自8个国家或地区4万至300年前的396个已发表的古代基因组和95个具有代表性的现代基因组,以揭示东亚现代和古代个体之间的种群关系。主成分分析表明,南北地区古代个体之间存在着较强的遗传差异,来自北亚的古代个体(例如,蒙古和俄罗斯)比南方更接近现代的北汉,来自南方地区(南方、岭南、台湾、泰国和越南)的现代和古代样本则紧密聚集在一起,这与人口的地理分布是一致的。此外,来自中国大陆的144个古代个体大多与现代北汉接近,在主成分分析中则与现代中国人口存在分层,表明漫长的东亚人口史上中国的南北人口迁移和混合。

图5. 东亚和中国汉族人群的分析,来源: Nature Communications

随后,研究团队使用一种基于单倍型的方法揭示了中国人群的遗传结构和共同祖先。结果显示,27个行政区主要划分为三组,来自安徽和江苏两省的个体聚集在北方。与岭南相比,南方大部分省份与北部省份更相似,表明南方和北方的汉族人有更多的共同祖先。总的来说,与南方汉族相比,北方汉族的遗传结构具有更明显的同质性。

图6. 不同区域中国人群的遗传漂移,来源: Nature Communications

结 语

综上所述,该研究描述了中国群体的大规模基因组变异,并为秦淮河线和南岭山脉的地理边界提供了全面的遗传学证据,将中国汉族群体划分为不同亚群,这将有助于未来大规模中国人群关联研究的病例对照设计。该研究还阐明了东亚现代和古代个体近期选择差异的区域遗传结构和特征。另外,研究团队创建的用户友好的网站以及在线资源对群体遗传学领域单基因疾病的基因组变异筛选及其与复杂性状的关联分析具有重要意义。

打开APP阅读更多精彩内容

聚圣源李连义荷兰豆炒腊肠jojo的奇妙冒险星尘斗士埃及篇花与蛇2骷髅精灵作品集饮料起名字的周易起名网百事测快穿之女主驾到水电安装工程以鱼为特色的饭店起名大全上海纪实频道张姓女童起名高分专业起名网页免费给女装哪个牌子好起名属牛宝宝起名宜用的字有哪些山东电视台在线直播李开复近况属鼠人起什么名字好听飞车宠物名字注册网上银行查找大师起名字张姓缺水男孩起名大全取名字还是起名日本排放核污水最新消息深圳单身公寓美国VS哥斯达黎加关于饲养场起名大全姚仙男会所魔兽争霸3冰封王座地图淀粉肠小王子日销售额涨超10倍罗斯否认插足凯特王妃婚姻让美丽中国“从细节出发”清明节放假3天调休1天男孩疑遭霸凌 家长讨说法被踢出群国产伟哥去年销售近13亿网友建议重庆地铁不准乘客携带菜筐雅江山火三名扑火人员牺牲系谣言代拍被何赛飞拿着魔杖追着打月嫂回应掌掴婴儿是在赶虫子山西高速一大巴发生事故 已致13死高中生被打伤下体休学 邯郸通报李梦为奥运任务婉拒WNBA邀请19岁小伙救下5人后溺亡 多方发声王树国3次鞠躬告别西交大师生单亲妈妈陷入热恋 14岁儿子报警315晚会后胖东来又人满为患了倪萍分享减重40斤方法王楚钦登顶三项第一今日春分两大学生合买彩票中奖一人不认账张家界的山上“长”满了韩国人?周杰伦一审败诉网易房客欠租失踪 房东直发愁男子持台球杆殴打2名女店员被抓男子被猫抓伤后确诊“猫抓病”“重生之我在北大当嫡校长”槽头肉企业被曝光前生意红火男孩8年未见母亲被告知被遗忘恒大被罚41.75亿到底怎么缴网友洛杉矶偶遇贾玲杨倩无缘巴黎奥运张立群任西安交通大学校长黑马情侣提车了西双版纳热带植物园回应蜉蝣大爆发妈妈回应孩子在校撞护栏坠楼考生莫言也上北大硕士复试名单了韩国首次吊销离岗医生执照奥巴马现身唐宁街 黑色着装引猜测沈阳一轿车冲入人行道致3死2伤阿根廷将发行1万与2万面值的纸币外国人感慨凌晨的中国很安全男子被流浪猫绊倒 投喂者赔24万手机成瘾是影响睡眠质量重要因素春分“立蛋”成功率更高?胖东来员工每周单休无小长假“开封王婆”爆火:促成四五十对专家建议不必谈骨泥色变浙江一高校内汽车冲撞行人 多人受伤许家印被限制高消费

聚圣源 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化