人类近期的适应
现代人类大约在20万年前出现于非洲,然后在8万年前到5万年前迅速迁移到世界各地。因此,这就要求我们的祖先要面临各种各样新的选择压力,如:适应其他地区相较于非洲的“寒冷温度”,新的饮食习惯和高原地区的缺氧适应等等。识别人类适应这些选择压力的遗传性状是非常重要的。
全基因组单核苷酸多态性的方法(SNP)和来自全球人类全基因组测序的数据(WGS)可以识别新的候选适应性基因和基因介导的途径,用于研究全球不同人群的适应能力。识别候选适应性基因最大的困难是:产生基因组突变的进化过程在基因座之间是可变的,而且基因组在进化过程中的变异位点不一定会参与蛋白质的编码,这些位点可以位于编码基因之间的区域,这些区域可以调控编码基因的表达,有的变异位点甚至在受它们调控的基因的数千个碱基对之外。
这篇综述,描述了全基因组中性位点检测的现状,基因组中含有最强适应性性状的区域,以及研究这些候选适应性位点上变异的功能序列的整合方法。特别是,强调了最近确定的候选适应基因和基因介导的途径的例子,其中一些已经在地理上不同的人群中进行了研究。此外,还讨论了利用表型、基因调控和功能数据解释全基因组适应性清扫的结果,以及该研究领域面临的一些挑战。
一、数据的获取
在过去几十年的研究中,从来自全球人类的全基因组数据里采集了几组常见的SNPs,这些SNPs里揭示了人类的一部分适应性性状。SSNP阵列因为其价格便宜成为全球最大的数据集,但是大多数功能变异没有被这些阵列捕获,因为等位基因频率和连锁不平衡(LD)模式都受到确认偏差的影响。因此,大多数关于正选择的遗传性状的研究都集中在由常见SNP标记或代表的候选基因或基因组区域上。
来自全球人口的WGS数据可以消除识别变异性状的过程中所带来的偏差,以及直接捕获罕见的功能性变异。
二、变异的识别方法
在全基因组数据中识别正选择性状的最常见方法是使用对适应性遗传性状敏感的统计检验,识别 “异常的” 突变。为此策略开发的统计方法主要用于识别经典的选择性清扫(我对经典的选择性清扫的理解是:当选择压力存在并确定时,在此选择压力下,一个新的有利突变在种群中的频率会迅速上升,然后接近一个固定值),具体操作如下:
操作一:基于等位基因频率的中性检验
操作二:基于异常的LD模式的检验
操作三:基于种群结构(由种群里等位基因频率的差异来衡量)的检验
操作四:扩展远距单倍型,以区分趋同进化和单一适应性突变的起点,它对单一适应性突变很敏感。
但是这些方法都存在一些不足之处,这是因为人类的全基因组数据是分阶段获取的,再加上不同的估算方法会使最后的结果产生偏差。
另外,在近代人类快速迁移出非洲之前,很多突变就已经存在人类的基因组里了,而从常态突变中进行的选择会留下比经典清扫更难检测的选择性状。当适应性性状受多个基因座影响时,此类信号甚至更难以检测。新的统计方法可以利用WGS数据中等位基因频率和单倍型模式的多样性捕捉原本是中性的突变,因为人群结构对常态突变特别敏感。
传统的离散型统计一次评估一个突变,而现在的研究也在关注由多基因确定的性状以及与特定表型相关的基因介导的途径,因为生物体的表型会影响其自身的繁衍。生物途径的注释是一个复杂的问题,这需要更好的注释基因的功能和更强大的统计方法。
三、结合人口统计学
理论上来说,使用全基因组数据研究适应性可以用全基因组的变异模式来模拟人类种群结构的形成过程,还可以研究非编码区的变异,以寻找候选适应性突变。但是缺乏真实的人口统计学模型来预测中性突变的模式会有很高的概率产生假阳性的结果。研究不同的适应性性状也需要结合在不同地域生活的人群。
四、容易实现的目标
早期的全基因组研究发现人类一些具有重要影响的基因中,有几个强大的适应性性状,说明了基因突变与表型变异之间,以及表型变异与生殖能力之间存在明确的关系,表明基因在适应过程中的作用。例如,随着人类饮食结构的改变,以及畜牧业的发展,欧洲人相较于非洲人代谢乳糖的能力要强得多。容易实现的目标包括:与生殖能力有关的表型以及少数的遗传变异(每个变异对群体的遗传结构都有很大影响)。
五、复杂性状
具有复杂遗传结构的性状以及对个体生存、繁衍影响不明显的性状很难用离散型统计法去研究。对于这些性状的研究,常用的方法是将全基因组SNP数据与表型数据相结合去定位变异基因的位置。但是与表型相关的SNPs在一个人群中被发现时,将这些结果应用于其他人群时要谨慎,因为LD的模式可能不同,性状的遗传结构也可能不同。
六、从不同人群中的到的启示
尽管研究不同的人群是一个很大的挑战,但是对于在相似环境中生活的不同人群,适应性的生理途径还是会有区别。例如,生活在高原地区的人,他们的低氧诱导因子1作用的途径会缩短,这是趋同适应,但是不同的人群,途径具体的缩短方式存在差异
开发新的方法来检测多基因适应以及正向选择的常态突变对于研究趋同适应非常重要。此外,适应性的信号在种群内部的不同群体以及种群之间存在的频率不同,若确定各种群之间的亲缘关系,追溯并确定祖先种群,可以确定种群在分裂后产生的适应性性状。
由于对局部环境的适应,原本只在特定人群中出现的适应性性状也有着可能出现在其他的人群中,因此将不同的人群纳入基因组的研究非常重要,这或许可以阐明基因型与表型之间的关系。
七、表型和功能数据的使用
重现人类适应性的生物学信号,可以采用下述的方法:将全基因组清扫获得的正向选择与基因型-表型关联研究,或将体内、体外的基因组调控数据和功能数据相结合,可以改进对候选适应性基因的识别。但是在不确定过去的选择压力或直接证明表型对种群的生殖影响之前,不应排除一个基因座具有适应性的可能。
八、数据集的整合
将适应性的全基因组清扫与特定适应性假设相关的表型数据相结合(候选适应性基因 表型)有一个潜在的限制:许多生活与适应性假设相关的、生活在不同环境条件下的人群很难被纳入研究,这需要研究具有足够的样本量。上述生活在高原地区的人群,以不同的生理途径适应低氧的环境就是一个很好的例子。
很多研究都在将候选适应性区域与基因组调控的变异整合到一起,使用全基因组数量性状位点的表达调控来验证验证一个假说:与基因表达有关的遗传变异在人类近期的适应中是否起着重要作用。整合局部候选适应性的基因座与推测基因调控途径的变异改进了一次只研究一个基因座的方法,现在可以将一组基因与另一组表达量协同上调或协同下调的基因一起纳入研究。
事实上,基因调控途径的变异很多还不清楚,在研究这些变异的功能前,弄清楚它们对表型和种群延续的影响非常重要。
九、后续的功能研究
体外实验:将候选适应性基因导入由干细胞诱导产生的不同类型的细胞
体内试验:将基因导如小鼠体内,观察与野生型小鼠相比,转基因小鼠的变化
与人体相比,这些候选适应性基因在体外实验和体内模型体系中的表现可能会有不同,特别是限定变异的影响于特定的组织和/或发育时间
十、整合基因组学