汉族最大规模！中国人基因库研究首发，日本与中国北方汉族人群聚类完全重叠 |基因组|Fst|基因

_本文原题：最大规模！中国人基因库研究首发，日本与中国北方汉族人群聚类完全重叠
生、长、衰、病、老、死，一切都与基因有关。不同地域和民族的人，其基因也千差万别。
鉴于此，最大规模的中国人基因库研究结果于近日首次发表——上海交通大学医学院附属瑞金医院内分泌科联合全国 29 家研究机构、医院，首次公布了来自 27 个省、直辖市 8 个民族的 1 万余人的高深度全基因组测序数据及表型的系统性分析结果。
2020 年 4 月 30 日，上述团队题为 The ChinaMAP analytics of deep whole genome sequences in 10,588 individuals（中国代谢解析计划对 10588 例样本的深层全基因组序列的分析）的论文发表于由中国科学院主管的国际性学术月刊《Cell Research》（细胞研究）。

本文插图
中国代谢解析计划
糖尿病、骨质疏松、低血糖、痛风，这些病症我们已经不陌生了。
本质上，它们都属于「代谢性疾病」。
顾名思义，这是一种因代谢问题引起的疾病。作为世界范围内最常见、发展最迅速的健康问题，代谢性疾病在很大程度上决定着人类的死亡率，也正在成为一项日益严重的公共卫生挑战。
世界上没有完全相同的两片树叶，而同一种疾病背后也存在个体差异。想要更好地进行个体风险评估、提升预防、治疗代谢性疾病的效果，关键在于了解代谢性状的遗传结构。
实际上，最简单粗暴的方法就是对大规模人群进行全面的遗传分析。
如今，基因库的概念已经并不稀奇了，欧美已经有了一些出名的人类基因组学和生物信息学数据库，比如英国生物样本库（UKbiobank）、基因组聚集数据库（gnomAD）、千人基因组计划（1KGP）、UK 10K 计划、dbSNP 和多组学精准医学研究计划（TOPMed）。
考虑到东亚人和欧洲人在遗传背景和种群特征方面存在的巨大差异，一项「中国代谢解析计划」（China Metabolic Analytics Project ， ChinaMAP）应运而生。
根据上海交通大学医学院附属瑞金医院公众号介绍，该医院此前牵头开展了多项覆盖全国的队列研究，基于相关研究，国家代谢性疾病临床医学研究中心（上海）依托了转化医学国家重大科技基础设施（上海）和医学基因组学国家重点实验室，实施了这一计划。
ChinaMAP 旨在全面囊括汉族及主要少数民族在不同地理区域的多样化遗传结构，并调查其对代谢疾病的影响以及广泛的生物医学相关的定量特征。
ChinaMAP 基于三个大型队列：

2010 年中国非传染性疾病监测：全国范围内 15 万名参与者的研究；
中国糖尿病患者癌症风险评估：25 万名参与者的研究；
上海城市化进程中的社区心血管风险：5 万名参与者的研究。

10588 位参与者的全基因组测序深度数据在 ChinaMAP 一期阶段，研究团队 27 个省的 8 个民族（汉族，回族，满族，苗族，蒙古族，彝族，藏族和壮族）中随机选择参与者，毫无偏倚的选择、过滤，进行了 10588 位参与者的全基因组测序深度数据，最终完成了中国人群遗传变异数据构建、中国人群体结构分析、基因组特征比较，及变异频谱和致病性变异解析。
其中，平均基线年龄为 54 岁，女性占比为 64.8％。
另外雷锋网了解到，基因在特定的位点上， DNA 序列存在差异，也就是说，基因组中散在的碱基不同，比如点突变、单个碱基的置换、缺失和插入，这实际上也就是基因多态性的一种表现，这在生物学上被称为 SNP ，即 single nucleotide polymorphism ，即单核苷酸多态性。
而在 ChinaMAP 一期数据库中，共有 1.36 亿个 SNP 和 1000 万个插入或缺失位点，其中一半都属于多个国际通用的数据库中没有的新位点。分页标题
下图是与 TOPMed、gnomAD、dbSNP 和 1KGP 数据库相比， ChinaMAP 中识别出的已知和新型 SNP 的数目和等位基因频谱。

本文插图
汉族可分成 7 个亚群
该研究表明，汉族人群可分成 7 个亚群，不同地域的变异特征与人口迁徙相关。
如下图所示，汉族人群可分成 7 个亚群：北方汉族（北京、天津、河南、河北、山东、辽宁、吉林、黑龙江、山西），西北汉族（甘肃、陕西），东部汉族（江苏、浙江、上海、安徽），中部汉族（湖北），南方汉族（贵州、四川、重庆、湖南、云南、江西），东南汉族（福建）和岭南汉族（广东、广西）。

本文插图
另一方面，藏族、彝族、蒙古族、苗族、壮族有独特的人群聚类，满族和北方汉族相近，回族和西北、北方汉族相近。
值得一提的是，不同地域的变异特征与历史上的人口迁徙相关。例如，西北地区（甘肃省）河西走廊地区是丝绸之路、古代人口迁徙的重要地区，因此有更多的个体变异特征。
少数民族（藏族，蒙古族和回族）的平均个体变异水平高于平均，而苗族个体的变异水平总体下降。
不难看出，基因组分析揭示了地理区域中多民族人口的遗传特征及其多样性、复杂性。
日本与中国北方汉族人群聚类完全重叠
就遗传特征而言，中国人与非洲差距最大，日本与中国北方汉族人群聚类完全重叠。
如下图所示，中国人的遗传特征与欧洲、非洲、南亚、拉丁美洲人口之间存在着巨大的差异。 Fst 取值范围为[0,1] ，最大值 1 表示完全分化；最小值 0 意味着不同地方群体遗传结构完全一致，没有分化。

本文插图
其中，非洲人口和中国人口显示出最大的遗传距离（MSL ，塞拉利昂， Fst = 0.15； ESN ，尼日利亚， Fst = 0.15； YRI ，尼日利亚， Fst = 0.149）。
同为东亚血统的中国、日本、越南人口的遗传特征非常相似（JPT ，日本， Fst = 0.007；KHV ，越南， Fst = 0.005）。

本文插图
另外，研究者在成分分析中发现，日本人群与中国北方汉族人群聚类完全重叠（日本为红点部分）。

本文插图
可见，研究成果提供了汉族和少数民族的精确遗传结构，揭示了中国人口的基因组多样性和分布。
中国人得糖尿病和肥胖的风险不同于欧美
研究人员进行了多基因风险评分（PRS），包括个体遗传风险估计、点单变体关联分析和稀有变体关联分析序列内核关联检验（SKAT）。
实际上， 2 型糖尿病和肥胖都是很常见的代谢性疾病，因此团队也对二者进行了多基因风险评分。
在对 2 型糖尿病进行的多基因风险评分中，研究团队将评分、年龄和血糖值以三维的形式进行显示。

本文插图
多基因风险评分表明， 2 型糖尿病高风险和低风险的个体之间存在非常显著的血糖差异，高风险个体随着年龄的增长，空腹（FBG）和餐后 2 小时血糖（2h-PBG）都显著高于中风险和低风险者。
而在对体重指数 BMI 进行的分析中，研究团队发现了东亚人的特异性 CADM2 基因位点。
雷锋网了解到， CADM2 此前经动物研究证实可参与调节体重和能量稳态。分页标题
下图为体重指数、空腹血糖和餐后 2 小时血糖的多基因风险评分。

本文插图
值得一提的是，中国人患 2 型糖尿病和肥胖的风险基因不同于欧美，这也进一步证明了建立中国人自己的基因库的必要性。
藏族、蒙古族和彝族酒量最好
此外，研究人员也探究了参与者的营养和药物代谢的流行病学和地理特征。
一方面，研究团队将关注点放在了酒精代谢能力上面。
从地理上讲，北方人比南方人酒精代谢能力更高，也就是说酒量更好；藏族、蒙古族和彝族的酒精代谢能力最高，广东、福建人该项能力最低。而不同地区人群对咖啡因的代谢能力相似。

本文插图
另一方面，研究团队对华法林（Warfarin）的减量使用、抗血小板药物氯吡格雷（Simvastatin）的适用人群分类、他汀类降脂药的副作用风险人群进行了分析，这也进一步佐证了针对我国人群特征的药物基因组研究和药物基因检测的重要性。
结合上述研究成果可以看出，这一大规模中国人基因库对代谢类疾病的评估、对重大慢性疾病的预防、对个体健康的管理和公共卫生决策，都具有不小的价值。
引用来源：
【汉族最大规模！中国人基因库研究首发，日本与中国北方汉族人群聚类完全重叠】雷锋网