近日,我校数学与统计学院应用统计教育部重点实验室李子林教授团队在基因组大数据领域取得重要研究进展。随着测序成本的大幅下降,对大规模自然人群队列实施全基因组和多组学测序及多尺度表型数据收集,已成为精准医学研究的一种重要手段。研究团队围绕大规模基因组数据的管理和分析问题,在大规模基因组数据的高效存储与致病性基因挖掘领域取得一系列原创性研究成果。相关成果连续发表在Cell Genomics、Journal of the American Statistical Association等国际知名期刊上。

图1. 全基因组测序数据管理和分析流程图
研究团队提出了大规模全基因组测序数据管理解决方案注释基因组数据结构(aGDS, annotated Genomic Data Structure),并开发了配套工具vcf2agds,系统性地解决了超大规模基因组数据的高效存储问题。同时,结合研究团队前期开发的配套分析方案STAARpipeline,实现了功能知情关联分析,系统性地提升了致病性基因的检验功效,突破了全基因组测序数据的运算瓶颈。相关成果以“Streamlining Large-Scale Genomic Data Management: Insights from the UK Biobank WGS Data”为题,发表在国际期刊Cell Genomics上。北卡罗来纳大学教堂山分校厉希豪助理教授、埃克塞特大学副教授Andrew Wood及我校数学与统计学院博士生袁愈新为论文的共同第一作者,我校应用统计重点实验室李子林教授、北卡罗来纳大学教堂山分校厉希豪助理教授、哈佛大学林希虹院士及埃克塞特大学副教授Andrew Wood为共同通讯作者。

图2. 全基因组生存数据分析方法SurvSTAAR流程图
研究团队基于生存分析理论和功能知情分析框架,发展了大规模全基因组测序数据生存数据罕见变异分析方法SurvSTAAR,系统性地提高了与疾病进展相关的基因检验功效。首先,SurvSTAAR可以控制人群结构和家系结构的混杂影响,适用于罕见事件情形。其次,SurvSTAAR通过STAAR框架整合了多组学功能注释数据,实现了生存分析数据功能知情分析,提升了分析功效。最后,SurvSTAAR开发了一体化分析工具,实现了分析流程自动化。相关成果以“SurvSTAAR: A powerful statistical framework for rare variant analysis of time-to-event traits in large-scale whole-genome sequencing studies”为题,发表在国际期刊Journal of the American Statistical Association上。上海交通大学崔怡丹博士及马诗洋研究员为论文的共同第一作者,我校应用统计重点实验室李子林教授、北卡罗来纳大学教堂山分校厉希豪助理教授及上海交通大学俞章盛教授为共同通讯作者。
相关文章链接:
https://www.cell.com/cell-genomics/fulltext/S2666-979X(25)00265-4
https://www.tandfonline.com/doi/full/10.1080/01621459.2025.2606388
初审:扶先辉
复审:解悦
终审:郑伟