米兰·(milan)中国官方网站-Nature：为高维度医学成像设计可临床转化的人工智能系统

作者：米兰·(milan)文化更新时间：2026-04-20 20:32:56 点击数：

Nature：为高维度医学成像设计可临床转化的人工智能系统

编译 | 王晔

编纂 | 青暮本文来自在《 nature machine intelligence》。作者Rohan Shad是Hiesinger试验室气度外科系博士后研究员。他及团队为血汗管成像（超声心动图及心脏 MRI）构建新型计较机视觉体系，而且利用转录组学及卵白质设计研究心脏病的潜于机制，为严峻心力弱竭患者设计装备。

文中切磋了高维临床影像数据所面对的特有挑战，并夸大了开发呆板进修体系所触及的一些技能及伦理方面的思量，更好地表现了影像模式的高维性子。此外，他们认为测验考试解决可注释性、不确定性及成见的要领应被视为所有临床呆板进修体系的焦点构成部门。

原文链接：https://www.nature.com/articles/s42256-021-00399-8

2018年，美国国度卫生研究院确定将人工智能纳入医学成像将来成长的重点范畴，而且为图象收罗、算法、数据尺度化及可转化的临床决议计划撑持体系的研究制订了基础线路。

陈诉中提到，只管数据的可用性、对于新型计较架构的需乞降可注释的人工智能算法等于已往几年已经经取患了巨年夜的进展，但今朝仍旧是一个要害性问题。

此外，于初期的开发历程中，还有必需思量到数据同享的转化方针、为羁系部分核准而举行的机能验证、可推广性以和减轻无心的成见等问题。

1大旨

算力的提高、深度进修架谈判专家标志数据集的前进刺激了医学影像人工智能（AI）体系的成长。

然而，运用人工智能体系来协助完成临床使命长短常具备挑战性的。呆板进修算法的目的是削减临床揣度所需的时间。但于临床中举行运用，有可能无心中会延误患者的医治。当脱离可节制的试验室情况时，人工智能体系的终端用户必需可以或许节制输入质量，而且可以或许解决收集延迟等问题，设计出将这些体系整合到既定临床实践中的要领。

初期对于可转换的临床呆板进修的测验考试注解，设计的体系要于既定的临床事情流程中正常事情，就必需要于算法开发之初就做出年夜量的整合努力。由于于将来部署该体系时，迭代的时机很是有限。

跟着开源呆板进修软件库的日趋增多及计较机机能的不停前进，研究职员愈来愈轻易开发出繁杂的针对于特定临床问题的人工智能体系。除了了检测疾病诊断的特性外，下一代人工智能体系必需思量练习数据的体系成见，更为直不雅地提示终端用户猜测中固有的不确定性，并答应用户可以或许摸索及注释猜测的机制。

该不雅点以这些要害的优先范畴为基础，以加快医学范畴的基础人工智能研究。咱们概述了数据集的细微不同及高维医学成像呆板进修的详细架构留意事项，同时会商了这些体系的可注释性、不确定性及误差。于此历程中，咱们为有兴致解决构建临床可翻译 AI 体系，所带来的一些问题及挑战的研究职员提供了一个模板。

2高维医学影像数据

咱们估计，于可预感的将来，可用的高质量 AI-ready 解释的医学数据集将仍旧不克不及满意需求。回过甚来分配临床事实标签需要临床专家投入年夜量的时间，并且将多机构的数据汇总起来公然发布也存于很年夜的障碍。除了了需要以于硬放射学真实标签上练习的模子为特性的“诊断人工智能”以外，还有需要按照潜于的更繁杂的临床综合成果方针练习的疾病猜测人工智能。具备尺度化的图象收罗和谈及临床基本领实裁决的前瞻性数据网络，是构建具备配对于临床成果的年夜范围多中央成像数据集的须要步调。

年夜范围的多中央成像数据会议孕育发生很多隐私及责任问题，这些问题与文件中嵌入的潜于敏感数占有关。医学数字成像及通讯（DICOM）尺度遍及被用来捕捉、存储及提供医学图象的事情流程治理。成像文件（以.dcm文件或者嵌套文件夹布局的情势存储）包罗像素数据及相干元数据。浩繁的开源及专有东西可以帮忙对于 DICOM 文件举行去辨认化。后端病院信息学框架，如Google Healthcare API，是一种断根可能包罗敏感信息的元数据域的要领，也经由过程安全列表撑持DICOM去标识化。

于面向用户方面，MIRC 临床实验处置惩罚器匿名器是一种风行的替换要领，只管它需要利用某些遗留软件。有据可查的Python软件包（如pydicom）也可用在于利用或者转给互助机构以前处置惩罚DICOM文件。然后可以提取成像数据并以各类呆板可读格局存储。这些数据集可以迅速变患上重大且拙笨，虽然数据存储格局的细节凌驾了本不雅点的会商规模，但医学成像 AI 的一个要害思量因素是图象分辩率的保留。

主动去辨认要领或者剧本常常被说起的一个错误谬误是受掩护的康健信息有可能被刻录于影像文件中。只管有DICOM尺度，但制造商的差别，使患上难以经由过程 MIRC 临床实验处置惩罚器等东西来天生简朴的法则，以屏蔽可能位在受掩护康健信息的区域。咱们建议利用一个简朴的呆板进修体系来屏蔽烧录的受掩护康健信息。

以超声心动图为例，有一个预界说的扫描区域，于那里可以看到心脏。其他潜于的选择是基在呆板进修的光学字符辨认东西，以辨认及屏蔽有印刷文本的区域。DICOM标签自己可用在提取扫描级信息及特定模式的标签。例如，于超声心动图及心脏磁共振成像 (MRI) 的环境下，可以轻松地从 DICOM 元数据中提取主要的扫描级别信息，例如收罗帧速度及日期或者 MRI 序列 (T1/T2)。

Nature：为高维度医学成像设计可临床转化的人工智能系统

图1：基在云的协作式解释事情流程。基在云的东西可用在天生专家解释数据集，并经由过程安全毗连与临床专家举行评估。图为MD.ai的一个实行方案，此中临床专家举行各类 2D 检测以测评心脏功效。

对于在触及人工智能体系与临床大夫举行正面基准测试的研究事情，或者于临床解释者的帮忙下筹谋年夜型数据集，咱们建议以DICOM格局存储扫描的副本。如许就能够经由过程可扩大及易在利用的云端解释东西举行部署。今朝有几种解决方案用在分配扫描数据供临床专家评估。要求的规模可能从简朴的扫描级标签到具体的特定范畴的剖解学支解掩码。于咱们的机构，咱们部署了MD.ai (New York, New York)，这是一个基在云的解释体系，可原生处置惩罚存储于机构核准的云存储提供商（google云存储或者亚马逊 AWS）上的 DICOM 文件。替换品提供近似的功效，如ePadLite（Stanford, California），它可以避免费利用。基在云的解释要领的另外一个上风是，扫描可以连结原始的分辩率及质量，及时协作模仿基在团队的临床决议计划，解释及标签可以很轻易地导出用在下流阐发。最主要的是，此中很多东西均可以用任何收集阅读器长途拜候，而且极易操作，极年夜地提高了用户体验并减轻了临床互助者的技能承担。

末了，较新的呆板进修练习范式，如联邦进修，可能有助在规避很多与数据同享相干的障碍。Kaissis等人审查了联邦进修的原则、安全危害及实行挑战。这类要领的重要特色是于每一个机构都练习当地算法副本，独一同享的信息是神经收集于练习历程中进修到的特性。于预定的时间距离内，从每一个机构的算法中学到的信息（练习的权重）被集中起来并从头分配，高效地从一个年夜型的多中央数据集中进修，而不需要传输或者分享任何医学成像数据。这有助在快速练习算法，从胸部计较机断层扫描中检测COVID-19的特性。

只管于医学成像范畴已经经有了结合进修的乐成树模，但于将这些要领用在通例临床利用时，仍旧存于年夜量技能挑战。尤其是于高维成像呆板进修体系的配景下，从多个介入中央传输及更新练习的权重而引入的收集延迟，成为练习更年夜神经收集的基本速度限定步调。研究职员还有必需确保练习后的权重于介入机构之间的传输是安全及加密的，这进一步增长了收集延迟。此外，于设计研究时，假如不克不及拜候源数据，筹谋数据集的质量及一致性可能极具挑战性。很多观点上近似的结合进修框架仍旧假设对于源数占有必然水平的拜候。

3计较架构

现代临床呆板进修中利用的神经收集架构，重要来自在那些针对于年夜型照片或者视频辨认使命28举行优化的架构。纵然于细粒度分类的其他挑战性使命中，这些架构也很是稳健，此中类具备微妙的类内差异（狗的品种），而不是具备高类间差异的较着差别对于象（飞机与狗）。经由过程对于年夜型数据集（例如ImageNet）举行充实的预练习，这些现成架构的机能优在为其量身定做的细粒度分类器。此中很多架构可用在风行的呆板进修框架，如TensorFlow及Pytorch。最主要的是，这些框架凡是为各类差别的神经收集架构提供ImageNet预练习权重，使研究职员可以或许迅速将它们从头用在专门的医学成像使命。

不幸的是，绝年夜大都的临床成像方式都不是简朴的静态图象。例如，超声心动图是一种心脏的二维（2D）超声影像。这些视频可以从多个差别的视角拍摄，从而可以对于心脏举行更周全的评估。CT及MRI扫描可以被认为是一堆二维图象，必需按图象挨次举行阐发，不然大夫有可能错过器官之间沿某一轴线的有价值的瓜葛。

是以，这些成像模式更近似在视频。将其作为图象拆开阐发，可能会致使空间或者时间配景的丢掉。例如，将视频每一一帧作为自力的图象举行阐发处置惩罚，会致使每一一帧视频之间时间信息的丢掉。于使用超声心动图、CT及MRI扫描的各类使命中，基在视频的神经收集算法比其 2D 算法有相称年夜的改良，但集成多个差别的视图平面带来了分外的维度，很难将其纳入当前框架。

与广泛的基在图象的预练习收集库差别，对于视频算法的撑持仍旧有限。对于部署新架构感兴致的研究职员可能需要本身于年夜型公然的视频数据集（如Kinetics及UCF101（中佛罗里达年夜学101--动作辨认数据集））上履行预练习步调。此外，视频收集的练习计较成本可能要高几个数目级。虽然利用年夜型天然景物数据集举行预练习是开发临床成像呆板进修体系的一个公认的计谋，但不克不及包管机能的晋升。关在预练习的机能改良的陈诉很常见，尤其是于利用较小的数据集时，但跟着练习数据集的增长，其上风会逐渐削减。

于2018年美国国度卫生研究院的线路图中，缺少特定在医学成像的架构被认为是一项要害挑战。咱们进一步延长，提出练习这些架构的要领，对于这些体系将转化为实际方面阐扬着主要作用。咱们认为，下一代的高维医学成像AI 将需要对于更富厚、更有配景意义的方针举行练习，而不是简朴的分类标签。

如今，年夜大都医学成像 AI 体系专注在从正常配景下诊断少数疾病。典型的要领是于练习这些算法时分配一个数字标签（疾病：1；正常：0）。这与临床受训职员进修从成像扫描中诊断差别的疾病的方式有很年夜差别。为了提供更多的医学常识，而不是简朴地对于天然图象或者视频举行预练习，Taleb等人提出了一系列利用年夜型无标签医学成像数据集的新型自我监视预练习技能，旨于协助开发基在3D医学成像的人工智能体系。

神经收集起首经由过程履行一组代办署理使命来进修描写作为输入的成像扫描。例如，经由过程让收集像拼图同样从头组合输入的扫描数据，它们可以被练习成理解于各类病理及心理状况下哪些剖解布局是彼此一致的。将成像扫描的数据与放射学陈诉配对于是另外一个有趣的计谋，基在胸部X射线的人工智能体系取患了相称年夜的乐成。

本着提供更细微的临床配景并将更多的常识嵌入神经收集的精力，陈诉中的文本经由过程开始进的天然语言呆板进修算法举行处置惩罚，随后练习视觉收集，以更好地舆解让各类疾病差别的缘故原由。然而，最主要的是，他们注解利用这类要领可以将特定下流分类使命的标志数据量削减多达两个数目级。是以，未标志的成像研究，不管是零丁的还有是联合成对于的文本陈诉，均可以作为有用预练习的基础。随后，对于较小的高质量基础实况数据样本举行微调，以完成特定的监视进修使命。

只管这些步调有助在调解现有的神经收集架构，使其合用在医学成像，但为特定使命设计新的架构需要专业常识。模子架构近似在年夜脑，而练习后的权重（练习中优化的数学函数）近似在思维。进化搜刮算法的进展使用呆板进修要领来发明为特定使命定制的新架构，从而孕育发生比人类构建的架构更高效及更高机能的架构。这些都为成像模式特定架构的成长提供了一个怪异的契机。

练习深度进修算法依赖图形处置惩罚单位（GPU）来履行年夜范围的并行矩阵乘法运算。云计较随用随付的GPU资源及具备高内存容量的消费级GPU的可用性，都有助在降低对于开发医学成像呆板进修体系感兴致的研究职员的准入门坎。只管有了这些进展，但于年夜型视频数据集上练习繁杂的现代收集架构需要多个GPU持续运行数周。

临床研究小组应该留意，虽然于相对于自制的计较机上练习单一模子多是可行的，但要找到最好机能的准确设置组合，险些老是需要利用专门的硬件及计较集群来于合理的时间规模内返回成果。强盛的抽象层（例如，Pytorch Lightning）还有答应研究小组成立内部尺度，以模块化的情势构建其代码。采用如许的模块化要领，神经收集架谈判数据集可以很轻易地被替代，有助在快速将已往为临床成像模式设计的体系从头用在新的用例。这类要领也有助在经由过程以新的方式集成子组件来扩大这些体系的功效。

4时间-事务阐发及不确定性量化

跟着医疗人工智能体系从诊断转向更多的预后运用，时间到事务的猜测（而不是简朴的二进制猜测）将于临床情况中发明更多的相干性。时间-事务阐发的特色是可以或许猜测作为时间函数的事务几率，而二分类器只能提供一个预按时间的猜测。与二元分类器差别的是，时间-事务阐发思量到了数据的删减，以思量到那些掉去随访或者于不雅察时间规模内没有履历相干事务的人。保存阐发于临床研究中很常见，也是制订循证明践指南的焦点。

用基在图象及视频的呆板进修来扩大传统的保存模子，可以对于构造切片或者医学成像扫描中的特性的预后价值提供强有力的洞察力。例如，将Cox比例丧失函数的扩大整合到传统的神经收集架构中，使患上仅从构造病理学切片中猜测癌症成果成为可能。咱们不主意利用此类视觉收集来划定怎样举行照顾护士，而是主意将其用作标志临床大夫漏掉晚期恶性肿瘤特性的病例的要领。

纳入时间-事务阐发于临床大将愈来愈主要，由于于疾病不不变或者初期阶段具备的可检测特性，于必然时间后可能会迅速成长。

例如，可诊断为黄斑变性的视网膜特性往往需要数年时间才能体现出来。具备早期疾病特性的患者可能会被标志为“正常”，这让神经收集试图猜测将来发生黄斑变性并发症的危害。纳入保存及审查的观点可能有助在练习体系更好地将正凡人与那些轻度、中度及正于快速成长中的疾病个别分隔。一样，练习视觉收集举行时间-事务阐发可能会于用在肺癌筛查，有助在按照预期的侵略性扩散潜力举行危害分层。这类转化事情的要害是要有强盛的、颠末充实验证的Cox回归的深度进修扩大。于已往的几年里，已经经描写了年夜量Cox模子的深度进修实现。Kva妹妹e等人提出了一系列的Cox模子的比例及非比例扩大，已往还有描写了更多的保存要领的实现，如DeepSurv及DeepHit46（图2）。

Nature：为高维度医学成像设计可临床转化的人工智能系统

图 2：量化呆板进修输出中的不确定性。

正如 Sensoy 等人所描写的那样，纵然于不准确的环境下，利用尺度要领练习的呆板进修模子也能够很是自傲。左图：当一个数字被扭转180°时，体系自傲地分配了一个从 1 到 7 的标签。右图：然而，用思量分类不确定性的要领，体系会分配一个不确定性分数，可以帮忙提示临床大夫潜于的过错猜测。

然而，从可操作的角度来看，时间-事务猜测可能存于问题。于肺癌筛查的假定示例中，胸部计较机断层扫描中的可疑结节可能会孕育发生一个猜测，即于有或者没有适量的医治干涉干与的环境下的中位保存率。对于临床大夫来讲，相识呆板进修体系对于个别病人的猜测的有多年夜的掌握多是颇有意思的。当对于一项使命没有掌握时，人类往往会审慎行事。呆板进修体系也反应了这一点，此中输出是 0 到 1 规模内的“种别几率”或者“准确的可能性”。然而，今朝文献中描写的年夜大都医学影像呆板进修体系，当提供应模子的输入数据凌驾漫衍规模时，缺少说我不知道的隐含能力。例如，纵然输入图象是猫的图象，练习用在从计较机断层扫描（例如）猜测肺炎的分类器于设计上也被强迫提供输出（肺炎或者非肺炎）。

于他们关在深度进修中的不确定性量化的论文中，Sensoy等人用一系列的丧失函数来解决这些问题，这些丧失函数分配了一个不确定性分数，以此来防止过错的、但有掌握的猜测。于项目的转化阶段，当人工智能体系被部署于与人类用户一路事情的情况中时，不确定性量化的利益就呈现了。决定信念器量是AlphaFold2的一个要害因素，该卵白质折叠呆板进修体系于第14届卵白质布局猜测要害评估（CASP14）挑战中取患了无与伦比的正确性，给DeepMind研究团队提供了一种要领来权衡他们应该对于正于天生的猜测赐与多年夜的信托。很多不确定性量化要领的实现都是于许可的环境下举行的，而且与经常使用的呆板进修框架兼容。纳入不确定性量化可能有助在提高高危害的医学成像呆板进修体系的可注释性及靠得住性，并削减主动化误差的可能性。

5可注释性人工智能及危险危害

除了了量化某些呆板进修体系的猜测效果外，对于在构建这些体系的工程师及利用它们的临床大夫来讲，他们更感兴致的是相识这些呆板进修体系是怎样患上出结论的。显著性图及类激活图现实上仍旧是注释呆板进修算法怎样举行猜测的尺度。

Adebayo等人近来的研究注解，仅仅依赖显著性图的视觉外不雅可能会孕育发生误导，纵然乍一看它们与配景相干。于一系列广泛的测试中，他们发明，很多风行的天生过后显著性图的要领并无从模子权重中得到真实的意义，而是与边沿检测器（简朴映照像素强度之间的锋利过渡区域的算法）没有区分。此外，纵然这些可视化要领见效，除了了呆板进修算法正于寻觅的位置以外，也险些没法破译。于许多示例中，不管是准确还有是过错的显著性图看起来险些是同样的。当患病状况及正常状况之间的差异需要存眷图象或者视频的统一区域时，这些错误谬误就越发较着了。

Nature：为高维度医学成像设计可临床转化的人工智能系统

图3：过后模子注释的误导性。

a, Adebayo等人用MNIST数据集的真实标签练习的模子（上）及随机噪声练习的模子（下）举行的试验。当经由过程年夜大都可视化要领举行评估时，于随机噪声上练习的模子仍旧孕育发生圆形外形。b，超声心动图视图平面的检测：过错的分类（左上）及准确的分类（右上）都孕育发生近似的显著性图（下）。

临床大夫应该留意，仅靠热图不足以注释 AI 体系的功效。于测验考试用如上图所示的可视化要领来辨认妨碍模式时，必需审慎。一个更邃密的要领可能触及到持续遮挡测试，即于成心袒护临床大夫用来举行诊断或者猜测的区域后，评估图象的机能。这个设法很是直不雅：于已经知对于诊断某种疾病很主要的区域被掩蔽的图象上运行算法，例如，于试图诊断心力弱竭时掩蔽左心室，应该可以看到机能的急剧降落。

这有助在确认人工智能体系正于存眷相干范畴。尤其是于高维医学成像研究的配景下，激活图可能为视频类成像研究的某些时间阶段的相对于主要性提供怪异的看法。例如，某些疾病可能于心脏紧缩时体现出病理特性，而对于在其他疾病可能需要人们存眷心脏放松时的环境。凡是如许的试验可能注解，呆板进修体系从临床大夫传统上不会利用的图象区域中辨认出潜于的信息特性。除了了网络关在这些呆板进修体系怎样孕育发生其输出的信息外，严酷的可视化试验可能提供一个怪异的时机，可以从被评估的呆板进修体系中进修生物学的看法。

另外一方面，激活与临床上已经知的主要区域的误差可能预示着收集正于进修非特异性的特性，使它们不太可能很好地归纳到其他数据集。

呆板进修体系进修的特性可能取决在架构的设计。更主要的是，呆板进修体系会按照提供应它的练习数据及方针来进修及延续体系性的不服等。跟着医疗保健人工智能体系不停向将来的疾病猜测成长，必需越发审慎地思量到这些群体于得到医疗保健及成果方面的巨年夜差异。

于近来的评论中，Chen等人深切概述了从问题选择到部署后阶段的潜于误差来历。于这里，咱们重点会商呆板进修体系开发初期的潜于解决方案。一些人主意用一些要领来注释现代呆板进修体系的其他黑箱猜测，而其别人则主意一最先就限定利用更可注释的模子。除了了于练习整个 AI 体系时联合布局化数据的输入以外，中间要领还有触及利用黑盒模子练习医学成像神经收集。

这可以经由过程成立交融收集来实现，此中表格数据被归并到基在图象或者视频的神经收集中，或者其他具备不异基本方针的更进步前辈的要领（天生组合数据的低维暗示的主动编码器）。纵然未将人口统计学输入纳入高维视觉收集，研究小组经由过程比力差别性别、种族、地区及收入群体的体现来审核他们的模子也很主要。

呆板进修体系可能会无心中学会进一步延续及歧视少数平易近族及有色人种，是以于模子开发历程的初期相识这类成见是至关主要的。对于呆板进修体系的信托对于在更广泛的采用至关主要，正如摸索特定的特性或者变量怎样以和为何会致使猜测同样，经由过程联合显著性图及预计特性主要性的模子无关的要领。

另外一种要领是于练习逻辑中限定呆板进修算法，确保发生优化步调以节制感兴致的人口统计学变量。这种似在多变量回归模子，此中感兴致的危害因素的影响可以自力在基耳目口统计学变量来研究。从技能角度看，这将触及到于练习轮回中插入一个分外的处罚性丧失，并服膺与稍低的模子机能的潜于衡量。例如，Fairlearn 是用在评估传统呆板进修模子公允性的风行东西包，而且已经经开发了基在 Fairlearn 算法 (FairTorch) 的约束优化，这是于练习历程中整合误差调解的有但愿的摸索性测验考试。有很多开源东西包可以帮忙研究职员确定差别变量及输入流（图象猜测，以和诸如性别及种族等变量）的相对于主要性。这些技能可能答应开发更公允的呆板进修体系，甚至可以发明没有预料到的隐蔽成见。

6总结

只管计较架谈判获取高质量数据是构建优良模子的要害，但为高维成像模式开发可转换的呆板进修体系方面还有需要努力，以更好地代表数据的视频性子。此外还有需要于模子开发的初期阶段成立有助在解决成见、不确定性及可注释性的功效。对于医学成像及人工智能的质疑是有利的，并且于年夜大都环境下具备必然原理。

咱们但愿，经由过程成立答应研究职员评估临床体现、病院事情流程中的整合、与临床大夫的互动以和社会人口危险的下流危害的功效，可以于改善人工智能的交付方面迈出成心义的程序。咱们但愿研究职员会发明这个不雅点颇有用，由于它概述了于临床部署方面等候他们的潜于挑战，而且于解决此中一些问题时可以阐扬引导性意义。

保举浏览

GAIR 2021年夜会首日：18位Fellow的40年AI岁月，一场技能前沿的传承与舌战

2021-12-10