研究方向

We are a group of highly motivated and creative people, discovering and innovating together to make precision medicine a reality through the catalytic power of big genomic data, statistical genetics, and artificial intelligence.


01

疾病风险新基因及新生物标志物发现

在疾病风险新基因及新生物标识物的发现方面,汪实验室具有专业的遗传数据分析技术,广泛的经验,及扎实的遗传学知识 (Zhang#, Wang#* et al. 2018, PNAS; Wang et al. 2019, J Am Soc Nephrol; Chun*, Wang* et al. 2020, KI Reports; Khetarpal*, Wang* et al. 2019,N. Engl. J. Med.)。 实验室将分析来自大规模人群队列的遗传及电子病历数据用于刻画遗传和表型之间的相关性,这些数据包括但不仅限于大规模的测序数据、基因分型数据、表型图像数据,基因表达量数据,蛋白质组数据,生物标志物以及电子病历数据等。实验室还将基于机器学习推断出相关的中间表型,然后利用这些基于遗传、中间表型以及电子病历等数据中的关联信息打造一个精细的“遗传-表型”关联地图。在该关联地图的帮助下,实验室将对罕见编码突变、非编码调控变异以及这些罕见突变在蛋白结构域中的分布模式及广泛的表型影响进行研究,并结合常见变异关联分析遗传统计定位(genetic statistical fine-mapping)算法,精细定位致病突变以及致病基因,据此精细化分类患病人群,便于精准预防与治疗。利用孟德尔随机化(Mendelian randomization)技术从相关性中理清因果关系,阐明疾病发生发展新机制。最终,实验室的努力将为复杂疾病的发生发展机制提供新的详尽的见解,为精准预防与治疗、临床试验及药物靶标开发等提供帮助。

02

疾病风险预测

基于本实验室前期关于疾病风险预测的研究基础 (Wang et al. 2020 J Am Coll Cardiol.; Emdin*, Bhatnagar*, Wang* et al. 2020, and Dron*, Wang* et al. 2021, Circ Genomic Precis Med.; Patel*, Wang* et al. 2020, JAMA network open; Fahed*, Wang*, homburger*, et al. 2020,Nat. Commun), 将继续拓展实验室已有的遗传统计模型,并开发新的人工智能模型用于疾病风险预测。实验室将使用深度学习模型综合来自于遗传、生物标志物、临床图像数据的潜变量及中间表型、基因组注释以及不同疾病之间的相关性等各方面的信息。因此能同时结合先天性的遗传风险以及后天发育及环境中的刺激因素统一联合建模,从而提高的模型的准确性。实验室将会把模型优化重心放在提高模型的可理解性、可解释性、可扩展性、可重复性以及对研究者和临床合作者可使用性和友好性上面。结合实验室与临床合作者多年的合作经验和优势,实验室会继续推动风险预测模型临床转化、用于患者精细化分类和管理。另外,由于现在的风险预测模型多是基于欧洲人的数据,当应用于其他人群的时候会产生严重偏差。因此实验室将结合大规模的中国人群数据,提高模型的可迁移性,以发展出专门针对中国人定制的无偏差统计预测模型,并据此对大规模高风险人群进行主动干预,推进“全民健康”。

03

生物计算服务关键云设施与平台

随着各种高通量生物医学技术的飞速发展,个人计算机已经无法应对如此海量的数据,甚至对于高性能计算集群(High-Performance Computing clusters)来说也是一种巨大的挑战。 例如,来自The Cancer Genome Atlas (TCGA) 项目的数据高达1.2PB(1PB = 1024TB = 1024 x 1024GB)。这些数据更是由多种数据类型所构成, 包含全基因组或全外显子测序数据、基因分型数据、基因型缺失推断数据、表观遗传数据、基因表达数据、蛋白质组数据及临床数据等等。 传统的将数据分发给各个研究者的模式有多方面的缺陷:1)大规模数据的多重复制导致了存储和计算成本的浪费,2)各个研究者的结果难以分享和复制 (主要由于各自采用不同的文件格式和使用的不同的开发环境),3)缺乏细粒度的安全控制管理等等。 汪实验室有多年经验使用由Broad Institute领衔开发的一套新的基于云计算的、统一的计算处理系统 ( Terra platform ) 。 这套系统将旧的“将数据分发给研究者”的模式转变为“将研究者带到数据中来”的模式,从而解决了上述的各种缺陷。基于云系统,将“将研究者带到数据中来”模式,在一个统一、开放、模块化和可分享的虚拟环境中,云基础设施提供精细化的安全控制,因此同一份数据可以授权给多个用户安全访问;在分享研究数据的同时也分享数据处理的流程(pipeline),从而保证分析结果的可重复性。汪实验室将组织和领导专业化团队打造一个类似的云系统,用以将本实验室的数据和结果可重复地分享给科学共同体。相同的模式应用于研究所的数据,势必会吸引广泛的研究者来使用和分享数据,最终提高研究所的曝光度和知名度。同时也希望能为促进中国的大规模生物数据分享贡献实验室微薄的力量。