2023年4月25日下午,中国科学院院士、北京大学讲席教授陈松蹊应邀做客浙江大学理学大师论坛,以“异质情形下的分布式统计推断”为主题,为我校师生作专题学术报告。本次活动在浙江大学海纳苑2幢210报告厅举办。
在报告前,数学学院江文帅老师介绍陈松蹊院士及其研究领域。陈松蹊院士任北京大学讲席教授,中国科学院院士;中国概率统计学会理事长,中国统计学会副理事长、伯努利学会科学书记;美国科学促进会、美国统计学会、数理统计学会会士。他的主要研究方向为超高维大数据统计分析、环境统计、非参数统计,经济计量等。
陈松蹊院士以“Distributed Statistical Inference under Heterogeneity”为题,与师生分享了在同质以及异质情形下的统计推断模型。
随着时代的发展,数据处理在科学研究中的作用越来越大。与此同时,数据处理本身也面临着诸多问题,例如:存储问题,数据可能会储存在不同的地方或者由不同的人所拥有;计算量大,集中进行数据处理会增加计算成本以及计算效率,以及数据传输速度以及隐私保护等问题。如果能对数据进行分布式处理,提取出特定的统计量进行整合将会很大程度上解决上述问题,因此进行分布式数据处理对于大数据时代来说有很重要的意义。
接着陈松蹊院士针对同质情形细致讲解了如何利用渐进对称统计量进行分布式统计推断,探讨了在退化以及非退化情形下的精确度与统计学效率。在此基础上结合实际需求,给出了两种分布式重采样技术。
最后针对异质情形,陈松蹊院士提出一个weighted distributed M-estimator【分布式加权估计量】以及Debiased Weighted Distributed estimator【分布式去偏加权估计量】,与全样本间的估计量和标准SaC估计量进行统计学效率上的对比,通过模拟实验证明该估计量在统计学意义下是更稳健的以及更加渐进有效的。
“如何对有相依性数据进行分块?”
“模拟实验中每块数据量不够大会不会影响其最后结果?”
“如何推广到高维情形...”
在互动环节中,在场师生提出了一系列与分布式统计相关的问题,陈松蹊院士一一耐心解答,并与提问师生进行交流研讨。
最后,陈院士展望了“分布式统计推断”的未来发展,并表示对该项研究的光明前景充满信心。