PADS: Prior-Assisted Data Splitting for False Discovery Rate Control

发布时间:2025-05-03 供稿单位:数学与统计学院 点击次数:

标题:PADS: Prior-Assisted Data Splitting for False Discovery Rate Control

报告时间:2025年05月07日(星期三)13:30-14:30

报告地点:人民大街校区惟真楼523

主讲人: 刘军

主办单位:数学与统计学院

报告内容简介:

Mirror statistic (or knockoff statistic) is a key component for most p-value-free feature selection methods. However, it is unclear how to choose the best statistic when additional prior information or covariate information is available. In this paper, we first describe a large class of possible choices of mirror statistics and derive an optimal form of mirror statistic inspired by the two-stage formula proposed in Li and Fithian (2021). Theoretically, we demonstrate the power advantage of this optimal form by considering the Rare/Weak signal model. With prior information, evenly splitting the data into two halves is no longer the most efficient way. Building upon the optimal form of the mirror statistic, we investigate how the splitting ratio affects the power of a feature selection procedure and introduce the Adaptive-Data-Splitting (ADS) approach. Both simulations and real data examples show that ADS performs significantly better than the original equal-splitting.

主讲人简介:

刘军,美国科学院院士,1985年于北京大学获数学学士学位;1991年在美国芝加哥大学获统计学博士学位;自2000年起,一直担任美国哈佛大学统计系终身教授至今。他曾任哈佛生物统计系兼职教授;任斯坦福大学统计系助理教授、副教授、终身教授(1994-2004);还曾任美国统计协会会刊联席主编及多个国际一流统计杂志副编等职。他于2015年领导创建清华大学统计学研究中心,并任名誉主任。2024年7月以筹建发展委员会主任职务在清华大学创建统计与数据科学系。刘军于1995年获得美国国家科学基金会的CAREER奖,同年被斯坦福大学评选为Terman Fellow;2000年获得国际贝叶斯学会的Mitchell最佳论文奖;2002年被国际数理统计学会选为Medallion Lecturer;2004年被国际伯努利学会选为Bernoulli Lecturer; 2008年被剑桥大学选为Kuwait Lecturer。刘军教授于2002年获得北美五大统计协会联合颁发的“考普斯会长奖”(公认为国际统计学界的最高荣誉);2004、2005年分别成为美国数理统计学会和美国统计学会会士;2010年获得世界华人数学家大会的晨兴应用数学金奖(三年一度,不超过45岁);2012年获得泛华统计协会杰出成就奖;2014年被ISI评为论文高频引用的数学家;2016年获得泛华统计协会许宝騄奖(三年一度,不超过50岁);2017年获得Jerome Sacks 杰出交叉学科贡献奖(一年一位); 2022年当选国际计算生物学会会士截至2024年9月,刘军教授在各类国际顶尖学术杂志及书刊上发表论文300余篇和一本专著。 在统计理论方面,刘军教授参与创立了序贯蒙特卡洛和粒子滤波方法;对马尔可夫链蒙特卡洛(MCMC)方法的设计构建了重要理论框架,提出了可以大幅提高MCMC抽样和最优化算法效率的若干新技术,并广泛应用这些理论和方法于工程学、生物信息学、大数据分析、个性化医疗等许多领域。在生物信息学方面,刘军教授是国际上为数不多的将贝叶斯模型和MCMC方法成功应用于该领域的统计学家之一。由刘军教授提出的“Gibbs保守串抽样和指针”是到目前为止生物学者寻找DNA和蛋白序列中精巧模式的两种最流行算法,在了解基因调控和蛋白同源性方面有非常成功的应用。