河北网络广播电视台 |零氪科技参编中国信通院《联邦学习场景应用研究报告(2022年)》

2月21日 , 由中国信息通信研究院联合百度、第四范式、明略软件、零氪科技等多家联邦学习产业链上下游企业编写的《联邦学习场景应用研究报告(2022年)》正式发布 。 作为《联邦学习场景应用研究报告(2022年)》医疗场景的重要支持单位 , 零氪参与了报告中医疗应用章节的编写工作 , 针对医疗场景中的电子病历结构化做出了专业解读和建议 。
该报告的发布 , 标志着中国隐私计算领域进入到了一个快速发展阶段 。
1982年 , 姚期智院士提出了隐私计算领域经典的「百万富翁」问题:两个百万富翁街头邂逅 , 他们想比比谁更有钱 , 但是出于隐私 , 都不想让对方知道自己到底拥有多少财富 , 如何在不借助第三方的情况下 , 让他们知道谁更有钱?
如今 , 这个问题的谜底正逐渐揭晓 。
如何让数据可用不可见?
2022年2月21日 , 在行业多家联邦学习产业链上下游企业的共同支持下 , 中国信息通信研究院(以下简称中国信通院)编写的《联邦学习场景应用研究报告(2022年)》正式发布 。 报告总结了中国信通院对于联邦学习技术、数据应用推广的经验 , 并深入探讨联邦学习在政务、医疗、金融、广告、物流的应用价值 , 以期为数据应用价值的释放带来解读和参考 。
河北网络广播电视台 |零氪科技参编中国信通院《联邦学习场景应用研究报告(2022年)》
图片
2021年世界人工智能大会公布的数据显示 , 中国数字经济规模已达41万亿元 , 其中 , 作为数字经济和信息社会的核心资源 , 数据在产业链上发挥着重要作用 。 而2021年下半年来相继施行的《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》 , 则在法律上为数字经济保驾护航 。 如何在强化数据安全制度与技术保障的同时 , 有效利用数据赋能产业 , 成为行业聚焦的核心命题 。
作为本次发布的《联邦学习场景应用研究报告(2022年)》中医疗场景部分编写的支持单位 , 零氪科技对基于场景下的电子病历结构化进行了专业解读和建议 。
【河北网络广播电视台 |零氪科技参编中国信通院《联邦学习场景应用研究报告(2022年)》】什么是联邦学习?业界常用数据不动模型动和让数据可用不可见来概括联邦学习的基本原理 。 联邦学习(Federated Learning)是一种新兴的人工智能基础技术 , 在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下 , 在多参与方或多计算结点之间开展高效率的机器学习 。
实际上 , 40年前姚期智院士所提的「百万富翁」问题的本质 , 就是如何在保障数据安全的同时有效利用数据 。 就在这一经典问题之下 , 以联邦学习为核心代表的隐私计算技术逐步诞生 , 并在实践中不断走向成熟 。 某知名投资机构合伙人甚至预言:目前正处于隐私计算商业引爆的前夜 , 2022年或成为规模化商业落地的第一年 。 目前 , 政务、医疗、金融、数字广告、物流行业是隐私计算的主要应用场景 。
技术信任打破医疗数据孤岛
在这些行业中 , 鉴于医疗数据敏感性高 , 安全隐私合规要求严格的特质 , 医疗场景复杂程度要显著高于其他行业 。 以电子病历为例 , 受限于信息安全和隐私保护等法律法规的合格性要求 , 电子病历不能离院 。 为实现电子病历的后结构化 , 通常的做法是院内数据治理 , 在院内进行数据标注、进行模型化训练和推断部署 , 这严重限制了多中心研究下数据间的彼此赋能 。
联邦学习的出现则打破了这种局限 。 在医疗数据安全合规使用及多中心研究日益趋势化的大背景下 , 联邦学习不仅在医疗领域设立了全新标准 , 更可以帮助行业在不牺牲隐私的前提下打造强大的人工智能模型 。
零氪提出的基于联邦学习的多中心数据处理框架FedCIE正在逐步应用其中 , 该模型基于零氪的医疗数据治理能力 , 特别是在病历深度结构化、患者画像、科研主题库建设等方面的深厚积累 , 能够解决单中心数据孤岛的问题 , 使各中心间数据能力彼此共享 。
具体而言 , FedCIE采用横向联邦学习模式 , 各中心把模型发送给调度节点进行全局模型的参数更新 , 然后调度节点再把更新后的模型下发给各中心节点继续模型训练 , 如此循环直到达到预设迭代次数 。 各节点间交换的只有模型参数而不涉及训练数据 , 各中心在数据不外露的情况下 , 共享彼此的数据能力 , 共同受益于集体智慧带来的模型能力的持续提升 , 真正体现了数据的可用不可见 。 目前 , FedCIE已被用来训练信息抽取模型、疾病预测模型等 , 并应用在多个项目上 , 取得了安全与高效的双重收益 。