论文阅读笔记0220
论文标题
Multisite learning of high-dimensional heterogeneous data with applications to opioid use disorder study of 15,000 patients across 5 clinical sites
论文背景
关于数据在多个机构之间的共享或是共同计算方法
详细:
大量的数据在多个机构之间分布(其中比较典型的就是医疗患者的数据)受不同的共享条例管理,开放程度也不一致,没有办法进行统一调用然后放入计算模型或是其他的一些下游应用中。
虽然机构之间在尽力发展一个通用的计算框架但是效果进展较慢。因此,有不少基于联邦学习的方法来解决这样的问题或是这些基于联邦学习的方法被称为分布式数据共享架构。(ps一句:分布式的架构推荐凤凰架构这样的书,从单体架构介绍到了现代微服务以及无服务等等)。
这样的架构多为share数据集训练之间的统计概率特征而不是直接share数据集,基于共享的统计特征进行联合的计算。此外,1. 为了节约资源,只进行一轮communication的one-shot显得更加有效。(与计算机cv那个one shot不一样,这里指的是只转一轮),2. 这样的框架下,平均算法显得没有优势,因为会忽略一些稀少样本。
论文方法
作者开发了A one‑shot, summary‑statistics‑based, Distributed Algorithm for fitting Penalized (ADAP) regression models across multiple datasets.
怎么做到的:
incorporating the second-order gradient information when creating the surrogate objective function.
a modified cross-validation strategy is used to tune the level of regularization
论文代码
Penncil/pda: PDA: Privacy-preserving Distributed Algorithms (github.com)