人工智能在检验医学应用的基本伦理问题和规范要点
【摘要】检验医学在医疗服务中的价值体现取决于检验技师和临床医生之间的积极合作和信任。而一般来说,医学的有效性反过来又取决于临床医生和患者之间的积极合作和信任。从20世纪下半叶开始,医学受到人工智能(AI)技术传播的挑战,并在一些诊断能力上表现出了与血肉之躯的医生相媲美的水平。作为医学数据的主要来源,临床实验室是人工智能技术可以充分发挥其潜力的天然场所。为了最大限度地实现预期效果并最大限度地降低风险,至关重要的是设计之初制定数据收集和解释的伦理要求,明确人工智能技术的具体使用是否会强化或挑战这些要求,并在严格但可行的规范下保护这些数据。从2018年起,欧盟委员会(EC)正努力从文化和法规的角度为欧洲国家和合作伙伴之间的人工智能可持续发展奠定基础。除了欧盟委员会的工作外,英国政府还提供了值得考虑的补充建议,以期将科学和技术服务于病人和医生。在本文中,我们讨论了在病理学和检验医学中,人工智能技术面临的主要伦理问题,并对相关的指南和框架文件中的要点总结如下。
【关键词】人工智能、数据保护、欧盟委员会;知情同意;循环思考;医疗责任
根据希波克拉底的说法,医学是病人和医生对抗疾病的战斗,“医生服务于艺术,病人领导战斗”。医学不仅仅是医学科学和技术:它的价值取决于医生利用科学和技术改善患者健康的能力。值得考虑的是医学新技术如何依据患者实际病情合理应用而不会形成过度医疗,换句话说,增加的医疗保健支出与患者的获得感减少,不应被视为理所当然的,以及边际效益的下降在很大程度上也不应通过技术(鉴定、购买、人力培训、监管)成本的上升来解释的。患者的健康状况是什么——每个不同患者的健康情况是什么——需要进行调查研究,实施适当的治疗,以期获得满意的结果,并受医患治疗联盟的管控。
从20世纪下半叶开始,医学技术受到人工智能(AI)技术应用的挑战,并在某些诊断专业中取得了与现实医生相当的表现。人工智能技术为医生和患者提供了巨大的机遇,前提是其应用不应颠覆这项技术的伦理和基本认知(改善患者的健康,并根据现有信息尽可能选择最佳的治疗方案)。一方面,像机器学习这样有前景的技术能够处理远远超出人类大脑能力范围的大量数据,提高诊断准确性,筛查疾病,改进疾病预防能力,设计以患者为中心的医疗途径,加强流行病学研究,支持人口健康管理,以及减少负面社会因素对健康的影响。另一方面,它也对患者的隐私和安全、医务人员的责任安全、就业机会、患者参与、临床医生的信任和科学进步本身构成了一些严重威胁。
人工智能技术可以充分展示其在实验室医学中的潜力,支持临床决策(诊断、预后、治疗)、促进医药研究(药物测试和开发、精准医学、生物库)和制定卫生政策(流行病学和循证资源分配)。为了最大限度地提高预期结果并最小化风险,至关重要的是要牢记医学的伦理要求和基本认知,明确人工智能技术使用的优缺点,并将其置于严格但可行的规范的控制之下。
欧盟委员会从2019年4月出版了《可靠人工智能伦理指南》第一稿,2020年2月发布了《人工智能白皮书》,并于2021年4月颁布了《人工智能法律提案》。白皮书发布后,进行了为期六个月的公开在线讨论。并向所有可能受到此监管影响的利益攸关方咨询,包括公共和私人机构、政府、地方当局、商业和非营利公司、社会参与者、专家、学者和普通公民。目的是通过设计就监管和发展人工智能技术的基本准则达成一致,而不是事后再纠正意外发生的问题,因为技术进步比监管条例的更新要快。除了欧盟委员会的工作外,英国政府卫生和社会保障部发布了《数字和数据驱动的卫生技术完善实践指南》,提供了值得考虑的补充建议,以便将科学技术服务于患者及其医生。
一、人工智能检验医学主要伦理问题
在检验医学中使用人工智能技术所产生的主要伦理问题源于实验室专业人员所扮演的特定角色、数据的自动获取和患者敏感信息的使用。人工智能技术的性能发挥在很大程度上取决于规范的数据输入,收集它们的背景以及解释它们的方式(临床敏感性和特异性;使用的测量单位,即摩尔或质量;关键参数的选择;数据格式;研究的对象;国际标准的应用;不同专业和环境的互操作性)。然而,输入数据的质量和验证不属于机器的能力范畴。因此,实验室专业人员在整个过程中能够提供准确数据分析和解释是非常关键的,以一种用于识别健康指标、检测结果和文档的通用语言做支持,如逻辑观察标识符名称和代码(LOINC)。此外,大多数检查结果都可以直接提供给患者,附加的基本的参考范围和语义标记(即星号)可供解读结果。考虑到多项检测对患者身体状况、心理平衡及其人生决策所造成的影响,合格的专业人员、伦理委员会和/或科学协会必须正式参与人工智能技术准确性和可靠性的评估。
生物医学伦理的四个原则(尊重患者的自主权、仁慈、不伤害和公正)有助于更详细地分析这些一般问题。尊重患者的自主权意味着患者有权决定对自己有益的方案,而不是选择在技术上更适合满足于健康需求的治疗方法,而是帮助医生了解他们认为与健康和生活质量最相关的意愿,并尽可能选择好的解决方案。这是从对疾病的治疗和技术转变为重视个人和社会价值的关键。从康德的角度来看的道德必要性(始终将患者视为具有生命的人,而不是可以利用的工具),尊重患者自主权意味着患者的数据是为自己所需,而不是为了其他患者的健康、保险提供商的利益及医疗器械供应商的利益。
只有患者意识到这些目的并提供知情同意(即,为了生物医学研究而使用剩余的生物材料),才意味着同意出于除自身健康之外的其他原因使用自己的检查数据。有研究人员提醒我们,绝不能想当然地认为,患者同意使用个人健康数据接受某些治疗本身就是同意将相同的数据用于其他目的,包括数据共享。最后,患者需要知道,有关其健康的医疗决策依赖于机器处理的数据。医生在利用IA技术解释图像时,是否适用于患者为获取该图像而签署的同一知情同意书,还是需要两份独立的授权(一份用于进行检查,一份用于授权机器辅助解释)?患者是否应该知道人工智能应用于临床诊断?这里的问题不在于医生依赖外援来解释图像,就像医生通常在同事或专家的帮助下做出正确诊断的那样;问题在于,外部支持是由机器提供的,也就是说,我们最终在多大程度上可以依靠机器对患者的健康做出重大决定。从医学法律的角度来看,目前还没有理由(没有先例,也没有具体的法律)让机器对其解读负责。这一点在驾驶自动化的背景下得到了证实,因此美国国家公路交通安全管理局(NHTSA)明确强调商业车辆“要求始终处于人类驾驶员控制之中”(在盲目地完全依赖汽车自动化而思想不集中导致驾驶员致命车祸之后采纳的提案)。
从伦理学的角度来看,也存在更多的争论。最近Hatherley对机器的可信性提出反对意见,认为在医学中,由于信任具有独特的人类内涵,因此无法信任机器。医学中的信任既有内在意义,又有实际意义。从内在角度来看,医疗服务是建立在信任的基础之上的,在很大程度上由于患者(被定义为弱势群体)和医生(被定义为某个方面的专家)面对医学信息是非对称性的。从现实角度来看,信任医生的患者更容易配合治疗,透露敏感信息,并感受到称心的关照。信任基于这样的信念,即某人正在为我的利益行事,或者更确切地说,由于该行为人的职责、对患者的了解和/或令人信服的义务承诺,我的利益被“囊括”在行为人之中。信任不仅仅是简单的信心,它是基于这样一种信念,即迄今为止发生的事情一定会再次发生。例如,一个小偷相信每天早上8点离开家的受害者在被盗当天也在同一时间离开家;但我们不能说小偷信任受害者。在一生中,人们每天早晨看到太阳升起后,可以确信明天太阳还会再次升起。然而,除了在某种宗教意义上,我们很难说人们信任太阳。同样,下班后我们可以指望导航系统开车回家,或者凭借机器学习方法从复杂的信息网络中做出概率决策,但我们很难说我们相信导航系统或机器学习方法能完成他们的工作。某种程度上信任部分预设了受托人的了解和善意。基于这些前提,用信心来谈论对机器的信任会更为恰当,即指望它们根据所拥有的信息做出有益决策的能力。
相反,根据Ferrario等人的说法,一旦形成了接受机器属性的理念,就有可能信任机器。例如,信任可以被简化为缺乏控制,在这种意义上,当我们认为没有持续监控某人或某事时,就会信任他们。越信任某人,就越指望他或她在没有监督的情况下做他们应该做的事情。从这个角度来看,医生在任何时候都不核对检查系统的准确性,这意味着医生在一定程度上信任机器。如果医生一定程度上信任检查,而病人对医生深信不疑,那么病人对人工智能的信任就体现了出来(反射信任)。同样地,从仪器的角度来看,机器也是可以信赖的。前面提到的导航系统和机器学习方法是满足病人期望和自主性的工具,因为它们处理大量的信息,帮助用户(司机或病人)实现他们自己审定的目标(通过最短的路线到家或改善身体健康)。
在实践中,信任的理论问题变成了评估风险和收益的物质问题,或者在仁慈和冷漠之间找到道德上可接受的折中方案。AI在实验医学中的益处众多:某些自动化程序可以显著提高复杂分析和临床决策的速度和普适性,使医生能够开展更多的检查或投入更多的时间关注病人;被人类传统意识和/或当前医学文化所忽视的相关信息反而可以引发重大疾病预防和治疗的突破(即图像中的小细节与疾病暴露之间的相关性,社会决定因素与健康结果之间的相关性,客观的生理特征与主流的医学理论之间的相关性);受慢性疾病和/或残疾影响的患者可以待在家里,在远程专业指导下定期检查他们的生物标志物。一旦所有这些优势得到充分证明,并且AI技术的表现明显优于人类,那么不采用它们就可能被认为是不道德的。
到目前为止,我们最需要考虑的是AI潜在的危害。首先,对于受过训练的医生来说,相较于没有医学背景的管理人员,他们更容易核查机器的预测结果(前提是算法不太复杂)。然而,后者每天也会基于同样的预测进行成本效益分析、公共政策制定以及资源配置决策。为了避免不必要的误解,应该保证面对面的医生咨询。例如,一项机器学习技术发现,仅哮喘比伴有肺炎的哮喘更加致命,因为同时患有这两种疾病的患者由于肺炎接受了更为强化的治疗;因此,正确的解读并非“哮喘比伴有肺炎的哮喘更危险”,而是“肺炎比哮喘更危险”,并由此引申出多个决策。同样,人工智能技术可能会阻碍医学进步,并加剧无意识但极其严重的偏见。“墨守成规”或“群体思维”是指机器根据专家和医生的理论(“这个数据必须这样解释”),或者在有限的数据集上构建推理,而这些数据集中某些患者又不具有代表性,这可能导致得出错误结论,例如,一台将肥胖或残疾患者与某种疾病联系起来的机器可以自然地忽略除残疾和肥胖以外的任何其他病理学解释,而其他因素可能存在,从而影响到全面有效的诊疗。根据Norman Daniels的说法,每个人健康状况不同,本身并不是社会不公正的结果,但那些由可控因素造成的健康差异确实属于社会不公的范畴。从这个角度来看,应大力防止人工智能技术在处理这些问题时产生类似偏差已成为一个社会公共问题,就如同确保人工智能技术不会被对这些问题麻木不仁的资本集团所垄断一样。
道义上看,一项技术的应用要求成本和收益均衡地分配给利益相关者群体。在低至中等收入国家,由于资源匮乏、人才流失、医疗资源分布不均以及医疗体系不健全等问题严重影响了医学专业知识的广泛应用,机器学习可以帮助少数合格的专业人员为相当多的患者提供适当的建议,或者帮助资历较低的专业人员依靠科技提供同样的建议。结合远程医疗,人工智能技术可以大大减少当地和全球的医疗分配不均的现象。确切地说,人工智能是为了减少而不是扩大这种差距(即数字鸿沟的差距),保护弱势群体免受潜在的操纵(即未成年人、残疾患者、老年人)。对不同年龄、性别、职业和种族的美国学生进行的一项全面调查显示,50.6%的学生表示愿意为某些存疑的目的分享和交换他们的敏感遗传数据,例如为了获得公共机构授权以减少潜在客户使用关键信息,删除商业数据,或出于其他目的利用已知的客户数据。如果人工智能数据不受到保护,它们最终可能会落入私人机构手中,难免有人会受到危害,例如,私人机构可能会根据患者的慢性疾病或家族史拒绝提供健康保险。同时,一些人工智能检查的预测和诊断准确性可能会揭示患者不希望或不需要知道的健康细节,因此造成情绪的波动,进而打乱生活计划,而没有增加任何治疗或预防价值(即一种渐进发作的不治之症)。医生是否会需要与患者、他们的家人或法定监护人分享这些信息?为了保护患者的心理健康和“不知情的权利”,先预设的患者心理需求,然后谋求为采取某个决定所必需的信息(所谓的奥卡姆剃刀原则)。类似的理由在某些欧洲国家支持采用生前预嘱以指导临终关怀,或仅为了预防疾病的目的授权选择胚胎,并避免应用于人种改良。对于人工智能而言,为了让机器进行精确评估而提供的信息越多,就需要越多的电子系统来共享这些信息,由此带来的对患者造成意外伤害的风险就越大,因为随着敏感数据泄露的增加,这种情况越有可能发生。例如,一些解释某种癌症进展的生物参数可以使患者清楚地知道致命的预后(即预期寿命为6个月),而不是为采取有价值的治疗方案所必需的;却带来额外的心理负担;并损害患者生命最后时光的生活质量。今天当我们很容易地在互联网上搜索到与健康有关的信息时,这些信息的安全性、准确性、适当性都令人值得怀疑,并且没有经过医疗卫生专业人员或患者亲属(如专科医生、全科医生、心理医生、护理人员)的任何把关和准许时,情况往往要更加耸人听闻。
医学伦理四项原则有助于关注在检验医学中人工智能技术的设计、开发、配置和使用整个周期中需要引起重视的具体要求,为构建一体化的临床、科学研究及产业合作平台奠定了基础。
二、从伦理问题到具体操作规范
针对伦理问题在不同国家转化为具体规范的努力正在逐渐地进行,这些努力既包括自上而下,也包括自下而上的方式。例如,美国医学信息学会为从事信息技术工作的研究者和临床诊疗专业人员引入了一套专门的伦理守则。在瑞典,通过信息工程师和医疗专家之间的联合共识,达成了一项关于临床成像数据共享的国家政策。出于对人类活动和人权的尊重,欧洲关于人工智能的法律提案提供了有利于整个AI行业的应用框架,而英国政府出台的指南则提供了补充性的临床诊疗建议,其中大部分内容可以推广应用于实验室医学以及欧洲各国。欧洲关于人工智能的法律提案可以总结为以下几条:
1.比例原则:(1)规范必须尽可能与其他现有法规(社区性法规或地方性法规)保持一致,以避免过度干预和形式化的官僚主义;(2)规范必须与现有数据保护法规保持一致,包括通用数据保护条例(General Data Protection Act);(3)规范必须与现有的数据保护法规保持一致,包括2018年颁布的通用数据保护条例(General Data Protection Act);(4)规范必须与欧盟(EU)基本权利宪章一致;(5)规范应明确规定所有欧盟开发人员(包括合作伙伴)应遵守的共同法规,但应允许相同的开发人员自主寻求最适宜的技术解决方案;(6)规范的具体条款应根据与每种特定技术相关的风险而定(从禁止到监管到自我管理);(7)制裁应与违规行为相称,从行政罚款到诉至法院。
2.规章和目标要明确:(1)采用清晰的定义(即人工智能、机器学习、深度学习);(2)概述明确的风险类别;(3)智能系统算法的设计者必须公开声明其产品的任何单一用途及功能。
3.横向规制:(1)规范不适用于特定技术,而是根据之前的目的和功能定义,设计适用于一般的风险监管;(2)规范同样适用于欧盟国家、向其他国家出口技术的欧盟国家以及从其他国家进口技术的欧盟国家。
4. 垂直往复监管:(1)开发人员应到国家登记机关注册,并与用户一起向国家监管机构报备任何与伦理有关的信息;(2)国家机构向由各国代表和欧盟代表组成的欧洲中央委员会报告信息;欧洲委员会提供咨询,确定最佳做法,并授权欧盟委员会在必要时采取制裁措施;(3)创建一个欧洲数据库,从高风险技术中收集信息;非高风险开发人员积极遵守各项法案。
5.投资培训:(1)树立对人工智能技术的信心,并澄清它们的设计是如何来改善居民健康的;(2)当公众提出关于人工智能目标和机制的重大问题时,坦诚地予以回答;(3)培训新一代IA专业人才。
英国政府的12项指导原则之中的7项有助于将这些一般原则转化为适用于医疗卫生的具体建议,其中包括实验室医学。其余5项指南(数据透明度、网络安全、网络监管、生成证据和商业战略)对于欧洲框架并没有增加实质性的信息,它们的条款更具体地针对本地的情况。现将与本文相关的7项指导原则总结如下:
1. 如何遵守行业伦理规范:数据应用必须有利于病人和公民的权益。人工智能技术开发人员有责任提供技术手段保护病人权利和隐私,包括让患者意识到自己在与机器打交道。
2. 有明确的目标:(1)每款设备默认情况下,应具有清晰的目标用户和解决的问题:旨在解决什么问题?针对哪些受众?如何解决?(2)明确的目标应满足以下几点:待解决的问题或需求;建议如何解决问题;解决方案如何与现有或创新的医疗设施相结合;效果如何得到验证;解决方案的成本效益;批处理能力;以及长期的可持续性;(3)预期在医疗保健中创造的社会效益的指标,提高诊断的准确性、综合医疗结果的有效性、医疗知识的普及性、减少操作的资源浪费;(4)从最初建议的颁布到修订,每个设备的设计始终让预期用户参与其中,即代表医疗机构和患者群体的参与者;(5)确定主要的性能指标,包括生物医学指标和患者检查报告结果(PROs);对劳动力的影响;对工作流程的影响;财务影响;性价比。
3. 适用性和可访问性:无论多么先进,如果操作太复杂而无法使用,即使再昂贵的技术都可能被浪费;直观易懂是减少而不是加剧不平等(即数字鸿沟)的关键。
4. 技术保证:(1)人工智能技术必须符合国际通用医疗器械标准(即IEC 62304);(2)每项技术都应履行专门的测试方案,包括验证测试、负载测试、渗透测试、集成测试和各模块间的偏差测试。
5. 临床安全性:(1)安全性评估设计必须在专业医生的监督下进行,以避免技术上市后的临时干预;(2)在将该技术引入市场之前,必须发布安全报告,并在整个技术生命周期中实施风险管理活动、危险日志记录和处理规程。
6. 数据保护:(1)开发者必须清楚地证明某个设备是如何安全、公平、合法地收集、存储和处理数据的;(2)数据的使用必须适度且合理:为什么这些数据是为了患者和公民的利益所需(而不是其他数据);为什么使用的数据与技术(奥卡姆剃刀原则)追求的特定目标相符。一些指导性原则可以帮助解答这些疑问:是否有必要使用个人数据?有必要以这种方式处理数据吗?匿名数据可以用来达到同样的目的吗?是否收集了超出实现目标所需的额外。数据?声明的优势是否实质上克服了缺点?
7. 操作互通性和开放的标准化:碎片化技术助长了数据浪费,数据碎片化可能对患者有害;各生成或使用信息的机构,包括卫生和社会保障机构,其数据必须标准化并实现操作的互通性。
为了保护隐私并最大程度降低数据泄露的风险,Jackson等人建议采用联合机器学习:应当考虑在受保护环境中训练机器,而非在这些环境之外进行训练,并在后期阶段处理聚合信息。然而,更普遍的是,不仅需要将指导方针和框架转化为有效的地方性法案,还需要在整个医疗周期中内化伦理问题。
三、结论
作者完全赞同Jackson等人的观点。即伦理道德不能简化为对规则的遵守,因为更多的规则可能是不良伦理态度的表现,正如一些在法律层面上看似合理且可追求的行为可能在伦理上存在问题一样。过于复杂的规则更容易被忽视或违反,从而错失社会进步和个人福祉构建的重大机遇。相反,应秉持少而清晰的规则、目标非常明确、简化、灵活以及人工智能专业性培训可能代表了一种更好的方法,欧洲框架和英国指导方针似乎都已经意识到了这一点。
这里讨论的法规可能并未详尽涵盖不同国家正在进行的所有努力,同时,对于病理学和实验室医学中使用AI技术所引发的所有伦理问题,讨论也可能未做到全面论述;然而,它们提供了一个清晰的基本准则,旨在准备并促进即将进行的科学辩论。
本文编译自:Clin Chem Lab Med 2022; 60(12): 1867-1874.