研究发现|AI在新冠检测中失灵了?研究发现647款AI工具不适用于临床( 二 )


二、训练AI的数据错误太多,让AI学习结果出偏差研究人员发现,这些AI工具出现的问题很多都与开发者用来开发工具的数据质量有关。在新冠疫情蔓延期间,通常是治疗新冠肺炎的医生收集和共享关于这一疾病的信息,包括医学扫描图像。而这些信息和数据是工具开发者唯一可用的公共数据集,这意味着很多是使用错误标记的数据或未知来源的数据构建的。
Derek Driggs强调了这个他称作“Frankenstei”数据集的问题,这些数据集是从多个来源拼接在一起的,可能包含重复项。这意味着某些工具最终进行测试的数据可能与它们训练时使用的数据相同,让它们看起来比实际上更加准确。
开发者还有可能混淆了某些数据集的来源,这可能会错过一些影响模型训练结果的重要特征。比如有些人在不知不觉中使用了一个数据集,其中包含没有感染过新冠病毒的儿童的胸部扫描图,并将这些作为非新冠病毒感染病例的示例。结果AI学会的是如何识别儿童,而不是识别新冠病毒。
Derek Driggs的小组尝试使用一个数据集来训练自己的模型,该数据集中包含患者躺下和站起来时的混合扫描。由于躺下进行扫描的患者更有可能患有重病,因此AI错误地学会了从一个人的站立或躺下来预测患病严重程度。
还有一种情况,研究者发现一些AI会对某些医院用来标记扫描结果的文本字体产生反应,结果来自接收重症患者医院的字体成为了预测新冠肺炎患病风险的指标。
事后看来,这些错误似乎很容易被发现,如果开发者知道它们,也可以通过调整模型来进行修复。但是,许多工具要么是由缺乏医学专业知识的AI研究员开发的,他们很难从中发现数据缺陷;要么是由缺乏数学技能的医学研究人员开发的,他们很难用专业知识来弥补这些数据缺陷。
Derek Driggs还提到了一个更微妙的错误,那就是合并偏差(incorporation bias),或者说是数据集被标注时引入的偏差。例如,许多医学扫描是根据放射科医生对于它们是否显示出新冠病毒的判断来标记的,但是这会将一些医生的偏见嵌入或合并到数据集中。Derek Driggs说,用PCR测试的结果来标记医学扫描会比仅听医生的意见要好得多,但是在医院里往往没那么多时间去统计这些细节。
Laure Wynants称这些已知的错误并没有阻止其中一些工具被匆忙投入临床实践,目前尚不清楚哪些正在被使用,也不知道它们被如何使用。医院有时会说他们仅将工具用于研究目的,这让研究者很难评估医生对这些AI工具的依赖程度。
Laure Wynants曾要求一家销售深度学习算法的公司分享有关其方法的信息,但是并没有得到回应。后来她从与这家公司有关的研究人员那里得到了几个已经发表了的模型,不出任何意外,这些模型都有着很高的偏见风险。
“我们实际上并不知道这家公司都做了哪些工作。甚至一些医院还与医疗AI的供应商签了保密协议。”Laure Wynants说。当她问医生使用的什么算法或软件时,会被告知医院不允许医生将这些说出去。
三、AI开发者要与临床医生合作,专家呼吁“数据共享”更加完善的数据可能会对解决这个问题有所帮助,但是在危机时期,这个要求很难做到。Derek Driggs称,更重要的是要充分利用已经拥有的数据集,应该让AI开发团队与临床医生进行更多合作。开发者要分享他们的模型,并公开他们是如何训练这些模型的,以便其他人可以测试它们并以此为基础来正确的使用。
“这是我们现在能够做到的几件事,它们可能会解决我们发现的50%的问题。”Derek Driggs说。
总部位于伦敦的全球健康研究慈善机构Wellcome Trust的临床技术团队负责人Bilal Mateen说,如果格式标准化,获取数据也更加容易。
Laure Wynants、Derek Driggs和Bilal Mateen都发现的一个问题是,大多数开发者都急于开发自己的模型,而不是和他人合作或改进现有模型。这样造成的结果是全世界的开发者集体努力创造出了数百种无用的工具,而不是共同创造出几种经过训练和测试的工具。
Laure Wynants说:“这些模型非常相似,它们都使用了几乎相同的技术,只是进行了稍微的调整,输入几乎相同的数据,并且犯了几乎同样的错误。”
“从某种意义上说这是研究领域的老毛病了。学术研究人员几乎没有任何动机去分享工作经验或验证现有结果。将技术从实验室工作台带到病床边的最后一英里是没有回报的。”Bilal Mateen说。
为了解决这个问题,世界卫生组织正在考虑签订一份紧急数据共享协议,该协议将在国际健康危机期间生效。这会让研究人员更容易地跨境共享数据。在6月份英国举行G7峰会之前,来自参与国的领先科学团体也呼吁“准备好数据”,为未来的突发卫生事件做好准备。