近年来,随着人类基因组研究的不断深入和大型测序项目的快速发展,大量人类基因组序列变异得到鉴定。例如,徐涛/何顺民团队此前发布的“女娲”基因组资源(Cell Reports, 2021)包含了7106万个SNP和819万个InDel,其中98%以上位于非编码区域。相比于编码区中的变异,非编码区变异的生物信息学注释与功能研究难度更大,在功能影响和疾病关联方面的重要作用尚未得到充分揭示。了解非编码变异与疾病之间的功能联系是极其重要且有挑战性的研究方向。同时,各种组学技术的广泛应用产出了多维度的数据,极大丰富了对于人类基因组变异的注释。然而,这些跨组学数据体量庞大、形式多样,因此难以被研究人员和临床工作者方便地获取和应用,极大限制了这些数据在变异功能和疾病关联研究中发挥作用。
近日,中国科学院生物物理研究所团队在Science Bulletin上发表了题为“TOAnnoPriDB: an integrative database for trans-omic annotation and prioritization of non-coding variants across human genome”的文章。该研究以“女娲”基因组资源为核心,结合团队此前开发的六大数据库(NyuWa、NONCODE、NPInter、piRbase、SmProt 和LncVar),共整合了来自数据库和文献挖掘的147项公共资源信息,系统地解析了非编码区域的变异(图1)。该数据库覆盖了约98%的人类基因组非编码区域,共涵盖46类多组学注释,涉及群体频率、功能预测、疾病关联、调控元件、QTL(数量性状基因座)、生物分子相互作用以及小肽翻译表达等多个方面,为人类基因组变异提供了丰富而全面的注释。
图1. 数据库资源概要
基于大规模人群全基因组测序数据,"女娲"基因组项目此前已经发布和解析了人类基因组SNP/InDel变异图谱(Cell Reports, 2021),移动元件变异图谱(MEI, Nucleic Acids Research, 2022) ,微卫星变异图谱(STR, Nature Communications, 2023)和小卫星变异图谱(VNTR,Cell Genomics,2024),并基于基因组中的近期正选择(Science Bulletin, 2023)及非编码调控元件适应性选择(Molecular Biology and Evolution,2024),探讨了其对人类表型和疾病演化的影响。
在收集与整合了广泛的注释信息基础上,该数据库构建了一个系统性的框架,对变异进行优先级排序。该框架结合了人群等位基因频率、功能预测得分(ncER、ReMM、GWAVA等)、调控元件/区域(TFBS、DNase peak、组蛋白修饰等)、功能相互作用区域、具有翻译潜力的非编码区域、以及变异-基因-疾病关联的信息,将变异分为六个层级(Level-1到Level-6)。这一分级能够辅助研究人员挑选和优先研究变异,为后续的变异研究和功能验证提供了更有针对性的方向。
此外,该数据库还提供了一个用户友好的网页界面(http://bigdata.ibp.ac.cn/TOAnnoPriDB)来显示变异的各种注释信息。关于一个特定变异的所有注释信息被分为四类(变异、调控元件、相互作用、基因表达与小肽)进行展示。并且对变异的群体频率、基因表达量和分子相互作用关系等信息进行了可视化,还整合了JBrowse 2来可视化各项注释信息。用户可以方便地执行数据的搜索、查询与分析操作(图2)。
图2. 数据库网页功能与示例
综上所述,TOAnnoPriDB整合了基因组学、转录组学、蛋白质组学等跨组学数据,重点关注了疾病相关信息以及不同人群中的变异频率。并提供了变异优先级排序框架,以及用户友好的查询与分析界面。能够帮助用户更全面地理解变异的功能意义,为研究人员筛选和研究变异提供了强有力的工具,为探索非编码变异与人类疾病之间的关联提供了重要参考。