研究成果

We are a group of highly motivated and creative people, discovering and innovating together to make precision medicine a reality through the catalytic power of big genomic data, statistical genetics, and artificial intelligence.


01

多基因风险评分(Polygenic risk score)用于疾病风险预测

多基因风险评分(将全基因组多个常见位点的风险信息综合为一个单一的连续性的遗传风险估值) 能够非常有效地用于欧洲人群的慢性患病人群和新发患病人群的疾病风险预测。能否将相同的概念用于其他人群(比如非洲人群、东亚人群或者南亚人群等)还没有定论。我们因此针对南亚人群专门设计和测试了一个全基因组多基因风险评分系统。 在南亚人群中,我们的多基因评分对冠状动脉疾病有非常稳定而有效的预测能力,在来自英国、孟加拉国和印度等多个地区的南亚人群样本中有非常一致而有效的预测结果 (Wang et al. 2020, J Am Coll Cardiol. )。在另外的研究中,我们的研究结果表明多基因评分不仅能够用于冠状动脉疾病的慢性患病人群和新发患病人群的疾病风险预测而且还能用于疾病的复发风险预测 (Emdin*, Bhatnagar*, Wang* et al. 2020, Circ Genomic Precis Med.),也能够有效预测疾病风险标志物的遗传水平 (Dron*, Wang* et al. 2021, Circ Genomic Precis Med.),为临床试验富集有效样本提供帮助。

02

常见病和罕见病遗传修饰因子的发掘及建模

不是所有的带有遗传致病突变或者高风险突变的人最终都会发展出疾病。因此加深对遗传和非遗传性修饰因子的研究能够帮助我们了解疾病的发病机理, 以及能够帮助我们设计出更为准确的统计模型用于疾病风险预测和疾病预防。通过遗传混合定位,我们发现 UBD 基因是 APOL1 相关肾脏疾病的一个遗传修饰因子(APOL1 为隐性遗传, 同时带有两个 APOL1 疾病风险突变能够增加患病风险十倍以上),通过接下来的一系列细胞生物学实验我们验证了 UBD 蛋白和 APOL1 蛋白能够直接相互作用,同时 UBD 基因的表达能够降低 APOL1 导致的细胞毒性 (Zhang*, Wang* et al. 2018, PNAS)。 另一方面,通过同时对罕见高风险突变以及基于常见突变的多基因风险进行统一统计建模,我们发现多基因风险对单基因高风险突变的发病率有显著的影响, 在某些情况下更是能将单基因突变携带者的患病风险降低到群体平均水平。我们在心血管疾病、乳腺癌和结直肠癌中观察到了一致的结果 (Fahed*, Wang*, homburger*, et al. 2020, Nat. Commun)。更为重要的是,这个统计模型还能用广泛用于其他疾病。因此,同时对单基因突变和多基因风险进行联合统计建模能够设计出更为准确的模型用于疾病风险预测,从而能够帮助实现对患者进行精细化的分类和管理,赋能精准医学。

03

遗传诊断、疾病风险基因发现以及药物靶标的发掘与优化

局部阶段性肾小球硬化症(Focal segmental glomerulosclerosis,FSGS)是一种罕见肾脏疾病,约占肾病综合征病例的 35%。 通过分析来自四百多个患病家系以及 600 个遗传背景匹配的对照样本的全外显子测序数据。 我们的研究:1)从常见突变以及罕见突变层面精细刻画了 FSGS 的遗传结构,2) 通过对已知致病基因中的罕见突变的统计分析对遗传诊断比例进行了估计, 3)通过对致病突变在蛋白结构域的富集模式分析增进了基因致病机理的理解,4)发展了新的统计分析方法用以发现潜在的致病风险新基因 (Wang et al. 2019, JASN )。 我们还设计了新的可视化方法用以在有限的可打印区域内对较大的家系遗传图谱进行美观化展示(Chun*, Wang* et al. 2020, KI Reports)。 在药物靶标优化方面,我们通过对来自英国生物样本库的5万人的外显子组数据分析,发现Volanesorsen (FDA 批准的唯一一个用于家族性组糜微粒血症综合征治疗的药物)的副作用是由于药物本身导致的, 而非所作用的靶基因导致的 (Khetarpal*, Wang* et al. 2019, N. Engl. J. Med)。 阐明这个作用机制为后来的药物优化指明了方向。最近我们还分析了近二十六万人(4.1 万冠状动脉疾病患者和 21.7 万对照)的全基因组或全外显子组二代测序数据,发现了冠状动脉疾病致病新基因(投稿中)。

04

遗传统计模型与算法开发

检测识别人类进化中受到正选择(natural selection)的基因不仅可以帮助我们理解人类的遗传适应性进化,还能帮助了解疾病的发病风险机理。虽然得益于二代基因测序及分型技术的快速发展,大量的遗传数据在近些年被快速产生。但是用于从这些数据中精确而高效地分析与识别出受到正选择的基因的遗传检测方法还非常有限。 精确定位正选择的驱动突变更是一个挑战。我们因此设计了一个快速、 精确和高效的方法用于检测正选择基因以及定位正选择驱动突变 (Wang et al. 2014, Mol Biol Evol, and He, Wang et al. 2015, Genome Research)。 该算法与当时效力最高也最常用的算法 (iHS) 在统计效力上相当,但计算速度比其快一万倍以上。更重要的是,该新算法定位正选择效应位点的精度显著优于 iHS 算法。此外,当选择作用比较微弱时,新算法的定位能力也远远超过其他传统算法.