检验医学大数据挖掘与临床应用规范及面临的挑战

作者:温冬梅 毛远丽
作者单位:上海森栩医学科技有限公司(温冬梅);解放军总医院第五医学中心检验科(毛远丽) 2022-09-21

毛远丽,解放军总医院第五医学中心检验科 主任技师,教授,博士生导师;专业技术三级,享受政府特殊津贴。现任第二届中国老年医学学会检验医学分会会长;第四届国家病原微生物实验室生物安全专家委员会委员;全国医用临床检验实验室和体外诊断系统标准化委员会(TC136)委员;中国合格评定国家认可委员会(CNAS)专业委员会委员。CNAS医学实验室认可主任评审员,CNAS实验室生物安全技术评审员。研究方向为感染性疾病病原实验室快速检测技术与病情评估;以第一完成人获军队科技进步一等奖1项、军队医疗成果二等奖2项、中华预防医学会二等奖1项。近年在国内外刊物上发表论文118篇,主编专著4部。 


温冬梅,上海森栩医学科技有限公司首席专家、首席CPO,获评广东省杰出青年医学人才称号。主要研究方向为医疗机构检验结果互认智能化平台建设、检验医学领域大数据挖掘、临床实验室智能化智慧化建设等。原创设计LAS智能化创新技术10项、原创设计、领衔开发智能应用产品10项,入选中国医学装备协会人工智能联盟人工智能产品。兼任中国中西医结合学会检验分会信息智能化专家委员会副主任委员、中国老年医学学会检验医学分会常务委员、中国医药教育协会健康管理专业委员会常务委员、中国女医师协会检验医学专业委员会常务委员等学术任职。《临床检验杂志》青年编委,《检验医学》杂志特约审稿人;获国家发明专利授权6项,在申请7项,获软件著作权12项,主编参编专著9部,参编全国高等院校本科教材1部,发表SCI、中华等核心论文40余篇,参加美国AACC大会交流论文5篇;主持各级科研课题8项,获中国医院协会医院科技创新奖等6项。


随着检验医学的飞速发展,覆盖检验分析前、分析中、分析后全过程的全自动检测设备及信息化系统已在临床实验室广泛应用,全自动检测设备、自动化流水线、中间体软件和信息系统的使用为临床实验室积累了海量的数据,并能提供大量的结构化、离散且客观真实的数据,这些数据可以很好地满足人工智能(AI)技术的数据分析的需求,借助机器学习、神经网络、支持向量机等数据挖掘技术和AI技术,使检验医学领域在大数据挖掘和AI技术的应用方面走在了前列。临床实验室正在迎来大数据时代,并将为临床实验室实现智能化智慧化奠定坚实的基础。


一、大数据特征和大数据技术及医学大数据


大数据(big data)是指一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有规模化(Volume)、高速性(Velocity)、多样化(Variety)等特征,强调了海量的数据规模、快速的数据流转、多样的数据类型及价值密度低等特征。随着大数据技术的持续创新发展,数据的复杂程度愈来愈高,国际上大数据特征从传统的3V发展为8V+1个O的多维度特征,分别为规模化(Volume)、高速性(Velocity)、多样化(Variety)、价值性(Value)、准确性(Veracity)、动态性(Vitality)、可视性(Visualization)及合法性(Validity)等,统称8V。另外增加了数据在线(Online)1个O这个数据特征,强调数据永远在线,能随时调用及计算,这也是有别于传统数据的特性之一。大数据的8V特征见图1,大数据是高科技时代发展的产物,未来的时代将是大数据科技(Data Technology)时代。


大数据技术(big data technology)指新一代的技术和架构,旨在通过支持高速采集、发现和分析,从种类繁多的海量数据中经济地获取价值。大数据技术一般包括:大数据采集、大数据存储及管理、大数据基础架构、大数据预处理、大数据统计、大数据挖掘、模型建立、模型预测、大数据展现及应用等;大数据展现及应用包括大数据检索、大数据可视化、大数据应用及大数据安全等。


医学大数据(medical big data)是指与医疗健康相关的数据,狭义上的医学大数据是指医疗机构产生的大数据,包括医院HIS系统数据、临床实验室LIS检验数据、医院影像数据、医保数据、卫生管理类数据、电子健康随访档案、科研数据等;广义上的医学大数据还包括互联网医学网络大数据、可穿戴设备疾病监测及健康管理大数据、医学研究大数据、生物信息大数据、区域卫生服务平台大数据等。医学大数据由于行业的特殊性及医疗信息化建设的历史原因,除了具有传统大数据的规模性、高速性、多样性、价值性、准确性等5个特征基础上,还具有海量性、精确性、安全性、异构性及封闭性等特征。医学大数据的价值在于应用,而应用的突破点在于数据挖掘,只有通过数据挖掘才能发现新知识、创造新价值。同样,临床实验室积累的海量历史数据通过转化成结构化、标准化高质量的数据,才能真正发挥作用,实现以人为本的智慧检验发展。


图1. 大数据的8V特征


二、医学大数据与人工智能的关系


医学大数据是临床医疗领域AI的基础,临床的真实世界数据能够反映真实的临床实践情况,有助于促进精准医学进程。AI在真实世界研究中的应用主要包括数据收集、数据库构建和数据分析,AI在真实世界的研究中,需要大量脱敏的、标准化的、结构化、有代表性的数据来进行模型构建,获取全场景的数据将更有助于通过人工智能在疾病风险预测、医疗影像、医院管理、辅助诊疗、虚拟助理、健康管理、辅助医学研究平台、药物挖掘及医学检验质量风险监控等诸多方面发挥作用。近年来,数据科学(Data science,DS)的发展和应用也极大地促进了检验医学的发展,增强了检验医学在健康生态领域的转换应用价值。DS整合了人工智能(artificial intelligence,AI)、数据挖掘、数据管理等计算机领域技术,通过从复杂的数据集中提取有价值的数据信息,为医疗决策和规则制定提供参考。其中AI技术包括神经计算、统计推断、模式识别、数据挖掘、知识发现、机器学习等交叉学科,为未来智能化检验医学的发展提供助力,也是实现临床实验室智能化的重要推动力量。


三、大数据在检验医学领域的应用


临床实验室大数据以专家系统、人工神经网络、数据挖掘、图像识别为支撑的AI技术实现,在检验医学领域的应用包括:临床实验室质量体系构建、运营管理、基于患者数据实时质量控制、分析过程质量风险监控、分析性能全程监控、检验报告自动审核、医院特定患者群体自动审核规则的设置及自动审核程序的建立、在临床辅助决策中的应用等。国内外大量的研究结果表明医学检验领域大数据有相当大的挖掘空间及临床应用价值。


1. 大数据在全面质量控制管理及质量风险智能监控中的应用:大数据在临床实验室质量体系构建中的应用包括基于患者数据的实时质量控制(patient based real time quality control,PBRTQC)在质量风险监控及分析性能全程监控的应用、自动化质控、大数据在医疗机构特定患者群体检验报告审核中的应用等,PBRTQC是一种使用患者临床标本的检测结果以实时、连续监测检测过程分析性能的质量控制方法,与传统的质量控制方法相比具有很多优势,包括多种运算程序。本期刘向祎等评价基于AI的PBRTQC智能监控平台在医院不同院区检验结果实时比对及结果互认的应用价值,为保证医院不同院区检验结果的准确性、一致性及结果互认提供有力工具及实践经验;本期徐邦牢等对PBRTQC患者检测结果大数据法与CLSI EP15A2指南新鲜标本比对法在临床实验室内不同生化分析仪间肌酐检验结果进行比对及偏倚评估比较研究;本期曾方银等基于AI的PBRTQC实时在线智能监控平台研究在监控化学发光检验领域质量风险识别与管理的临床应用研究。以上研究结果显示,基于医学大数据挖掘及人工智能深度学习技术以及实时运算程序的PBRTQC法可以将海量的检验数据进行高效采集、存储、处理、建模、分析及智能预警,为临床实验室提供实时、连续、可视化的全过程质量风险管理及实验室内、实验室间检验结果比对工具;本期郑磊建立了机器学习模型用于识别假性高钾血症,同时能够对血清假性高钾进行修正,保证检验结果的准确性及患者医疗安全。


2. 大数据在检验结果自动审核中的应用:临床实验室检验结果报告审核的准确性、及时性直接影响临床的医疗决策、安全和诊疗效果。临床实验室报告审核的常规模式是人工审核,人工对检验结果、历史结果及相关样本信息、结合专业理论知识及实践经验进行综合分析,排除分析全过程可能存在的误差后发出检验报告的过程。但人工审核工作强度大,海量的报告和数据费时费力,而且实验室人员专业能力及工作经验差异容易造成报告不及时、未能发现误差结果等审核差异。自动审核(Autoverification)是在遵循临床实验室操作规程的前提下,计算机系统按照预先设置的并已通过验证的规则、标准和逻辑,自动对临床实验室检测结果进行审核并发布检验报告成为医疗记录的行为。目前人工智能技术也开始应用于检验结果的自动审核领域,相比传统的人工审核报告模式在优化报告审核流程、识别及减少分析全过程潜在误差、提高检验结果准确性、报告及时性、减轻检验人员审核压力、提高医生满意度和保证患者医疗安全等方面有着显著效果。实现检验结果审核与签发的标准化、自动化和智能化。本期夏良裕在《临床实验室检验结果自动审核的流程设计与临床应用》专论中,对国内外临床实验室不同专业自动审核现状进行了介绍,就自动审核在应用实践中的软件选择、流程设计、参数设置、性能验证以及应用管理进行了详述,并分享了协和检验科不同专业/项目自动审核的通过率;本期袁慧报告了MC-80型全自动血细胞形态分析仪在血常规分析时对“低估”血小板自动复检技术及对临床诊断的意义;本期公衍文等参照CLSI AUTO 10A和WS/T 616-2018临床实验室定量检验结果自动审核指南,结合实验室实际情况和检测系统特征建立和验证急诊检验血细胞分析自动审核程序,缩短TAT,提高工作效率。


3. 大数据在辅助临床决策中的应用:在传统的医疗诊断行为中,医生通过患者的诊断指标结合知识储备和经验对患者进行诊断,但是这样的诊断模式具有一定的局限性,诊断准确性依赖于医生的主观判断。借助于数据分析技术,例如机器学习、数据挖掘技术,可以建立疾病诊断的数学模型或专家系统,这些方法极大地提高了对患者诊断的准确性,是作为临床辅助决策的重要工具。大数据在辅助临床决策中的应用包括个性化参考区间的建立与模型、多维度诊断模型的建立、疾病预后模型的建立、组学数据在临床数据中的应用等,数据整合和医学经验的组合可以为患者的诊断、风险评估和治疗选择提供全新的模式。例如在心血管疾病、肿瘤的治疗领域以及肿瘤风险预测模型建立与验证应用,均有很多文献报道了采用神经网络、支持向量机等方法挖掘患者检验数据。进行临床辅助决策的案例。随着人工智能技术不断应用于实验室和临床数据,很可能有机会将其用于支持临床决策和项目选择的有利工具。例如,如果人工智能算法可准确地预测检测结果(或者甚至是疾病状态),则可以指导临床医生进行检验项目的选择。在资源有限的情况下,如果可以通过概率模型准确地预测检测结果,那么甚至可以通过LIS筛选患者必须进行的检查和项目。本期李波在《机器学习技术及其在恶性肿瘤诊断中的应用价值》一文中,就可用于分析的肿瘤相关大数据采集与获取、数据分析软件和机器学习技术的应用、后续的分析和肿瘤诊断模型的建立步骤及方法进行了详述,并列举了基于大数据的机器学习算法在恶性肿瘤诊断中的应用;秦晓松在《大数据辅助决策在大规模核酸筛查中的应用》中介绍了基于全场景疫情病原体信息检测系统,研发的包括资源、标本流转、检测机构等三个大数据辅助决策智慧监控平台,为疫情防控提供基于大数据驱动的全场景管理与决策。


4. 大数据在真实世界研究中的应用:真实世界数据(RWD)是指与病人健康状态相关及提供健康服务过程中通过各种途径收集的数据。基于大数据医疗背景下的真实世界研究的目的是强调以患者转归为中心,利用研究结果提高临床决策质量。真实世界数据包括临床数据、研究数据、健康监测数据、公卫信息数据以及媒体、政府机关收集的相关数据等。与传统的随机对照试验相比,真实世界研究采用非随机、开放性的方式,纳入研究对象更加宽泛,伦理学风险更低,也更接近真实的临床诊治效果的评价,可以很好地弥补随机对照试验的不足。而在检验医学真实世界研究中,由于检验科提供了大量的结构化和非结构化的数据,通过大数据和信息化的结合,实现了数据的互通,充分利用了日常工作的数据成果,也打通了科研和临床的信息接口。但是,真实世界研究的难点在于:数据量庞大,标准化不足,数据异质性强,需要结合统计学、人工智能算法、生物信息学等多方面的技术,才能实现数据的利用。前述有关PBRTQC的大数据研究都是在检验医学领域的真实世界研究。


5. 大数据在生物医学科学研究中的应用:在检验科研领域,运用大数据对各类标志物进行筛选、分析,可以为科研工作提供强有力的数据分析和支持。随着生物技术的发展和提高,尤其是高通量测序技术的飞跃发展,在生物学研究过程中产生了海量的生物学数据以及大量的数据库,通过将这类数据进行整合、共享,为全世界的科研工作者提供了数据分析资源。例如著名的肿瘤数据库TCGA、GEO,提供了可供下载的数十万肿瘤患者的转录组、甲基化和临床病理信息。研究者通过生物信息学手段可以对这些共享数据进行分析,筛选差异基因并分析患者的预后风险因素,建立风险评价模型。而研究者们也可以上传自己的研究数据,这类数据平台的建立,极大地提高了临床科研的效率,降低了研究成本。医学研究人员可以使用大量癌症患者的诊断和预后价值的数据,以便找到更加精准有效的标志物。但是对于数据共享的推广及应用,主要依赖于研究人员的意愿,另外,数据系统的兼容性和患者的数据伦理问题也值得关注。


四、大数据在检验医学领域中应用的问题与挑战


目前,临床实验室大数据在临床研究及广泛应用中也面临着诸多问题与挑战:


1. 规范化与标准化:数据采集是临床实验室大数据研究及应用的关键点之一,大数据模型的建立和技术的准确性在很大程度上取决于数据的质量和完整性,数据采集、数据质量、数据规范化、标准化、数据价值,应加强临床实验室海量数据采集、数据存储、数据清洗、数据挖掘、数据分析等保证数据质量、规范化及标准化安全等关键技术攻关。此外,除数据采集的标准化、规范化外,数据量规模、技术手段、安全性、采集难度、设备、平台和系统的配合运用也需要综合考虑及重视。

2. 人工智能算法:人工智能算法是计算机基于所训练的数据集归纳识别出来的逻辑,健康医疗大数据数据集的丰富性和规模性对于算法的训练尤为重要。海量的临床实验室大数据、快速运算能力和科学的算法模型是助推大数据挖掘与检验医学实际需求相结合及发展的重要组成要素。


3. 行业标准:目前尚缺乏相关引导大数据在检验领域规范应用的相关行业标准及指南、信息数据接口和传输协议等尚未实现标准化。国家有关医学大数据的政策发布对于临床实验室大数据应用安全与管理规范发挥了重要的支撑及引导作用,行业学会应积极组织医疗卫生机构及相关企业等进行检验医学领域大数据应用的相关标准制定工作。


4. 数据安全管理与隐私保护:临床实验室数据量大且种类复杂,在临床实践中,数据和信息安全涉及到隐私保护,行业团体及医疗机构应建立、健全临床实验室大数据研究及应用安全管理制度、操作规程和技术规范,保障临床实验室大数据安全数据采集、传输、存储、挖掘、分析及应用等多个环节中的安全管理及隐私保护;建立检验医学领域的数据使用、共享的机制和规范,在标准化的基础上,建立真实世界大数据研究及应用的完整体系。


五、医学大数据应用安全与管理规范


临床实验室每天产生海量的医学大数据,对检验大数据开展多维度的数据挖掘,从其中蕴含的深刻科学规律发现大数据的价值,为患者带来更安全及有效的健康医疗服务意义重大。临床实验室大数据属于医学大数据非常重要的类型,在临床研究及应用方面面临着几个关键点:包括数据采集、数据质量、数据价值、数据分析、数据安全、隐私保护以及复合型人才需求等。国家对于医学大数据的政策发布对于临床实验室大数据应用安全与管理规范发挥了重要的支撑与借鉴引导作用。


1. 健康医疗大数据规范应用发展:2016年06月24日,国务院办公厅印发发布的《国务院办公厅关于促进和规范健康医疗大数据应用发展的指导意见》(国办发〔2016〕47号)旨在促进和规范健康医疗大数据应用发展,归纳与临床实验室大数据应用安全与管理规范的内容阐述如下:坚持以人为本、创新驱动,规范有序、安全可控,开放融合、共建共享的原则积极营造促进健康医疗大数据安全规范、创新应用的发展环境。指导意见的重点任务和重大工程包括夯实健康医疗大数据应用基础、全面深化健康医疗大数据应用,加强健康医疗海量数据存储清洗、分析挖掘、安全隐私保护等关键技术攻关、规范和推动“互联网+健康医疗”服务、实施健康中国云服务计划、建设健康医疗服务集成平台,重点推进网上预约分诊、远程医疗和检查检验结果共享互认等便民惠民应用,促进“重心下移、资源下沉”;加强健康医疗大数据保障体系建设及医疗大数据产品、服务流程标准化;加强法规和标准体系建设,制定完善健康医疗大数据应用发展的法律法规;建立统一的检查检验规范、药品应用编码、信息数据接口和传输协议等相关标准,促进健康医疗大数据产品、服务流程标准化;加快健康医疗数据安全体系建设;开展大数据平台及服务商的可靠性、可控性和安全性评测以及应用的安全性评测和风险评估;建立安全防护、系统互联共享、公民隐私保护等软件评价和安全审查制度;加强健康医疗信息化复合型人才队伍建设,着力培育高层次、复合型的研发人才和科研团队。


2. 健康医疗大数据标准和安全与服务管理:2018年7月12日,国家卫生健康委员会研究制定及发布的《国家健康医疗大数据标准、安全和服务管理办法(试行)》等,旨在加强健康医疗大数据服务管理,促进“互联网+医疗健康”发展,以下就健康医疗大数据标准、安全和监督管理摘录归纳阐述如下。


(1)标准管理:国家卫生健康委员会及卫生健康行政部门在健康医疗大数据标准管理方面的职权内容见图2。


图2. 国家健康医疗大数据标准管理


(2)安全管理:健康医疗大数据安全管理指在数据采集、存储、挖掘、应用、运营、传输等多个环节中的安全和管理,包括国家战略安全、群众生命安全、个人信息安全的权责管理工作。责任单位应当在安全管理制度,操作规程和技术规范建立、数据分类、数据备份、加密认证、构建可信的网络安全环境、健康医疗大数据采集、使用、实施管理和服务、质量管理等方面严格执行国家和行业相关标准和程序,保障及加强健康医疗大数据的安全管理,见图3。


图3. 国家健康医疗大数据安全管理


(3)管理监督:卫生健康行政部门应当加强监督管理,对本行政区域内各责任单位健康医疗大数据安全管理工作开展日常检查及指导监督等工作,各级各类医疗卫生机构应当接入相应区域全民健康信息平台,不同级别部门职责见图4。


图4. 国家健康医疗大数据管理监督


六、未来发展趋势与方向


未来检验医学领域大数据的挖掘、基于大数据分析模型建立、机器学习、智能算法等关键技术,在检验医学领域应用的突破和应用将是未来发展和创新的方向,这需要有大量医疗机构协同高校、科研机构及企业厂家共同深入探索研究关键技术和问题。同时,由于技术的不确定性和应用的广泛性,带来临床实验室数据、网络安全及隐私伦理等问题,国家行业标准化组织、专业学术团体应加快制定出台相关标准指南,实现智能化发展与患者信息保护之间的平衡将成为未来发展的重点。


参考文献


Estevez M, Benedum CM, Jiang CS. Considerations for the use of machine learning extracted real-world data to support evidence generation: A research-centric evaluation framework. Cancers (basel). 2022, 22; 14(13): 3063. doi: 10.3390/cancers14133063.

Lei Li, Xiao Du, Guangyi Fan. Identifying Potential Biomarkers of Prognostic Value in Colorectal Cancer via Tumor Microenvironment Data Mining. Front Genet. 2022, 3; 12: 787208. doi: 10.3389/fgene.2021.787208. eCollection 2021.

Hui Li, Jianmei Lin, Yanhong Xiao et al. Colorectal cancer detected by machine learning models using conventional laboratory test data. Technol Cancer Res Treat. 2021; 20: 15330338211058352.

Xiaoli Liu, Jilin Lu, Guanxiong Zhang et al. Machine learning approach yields a multiparameter prognostic marker in liver cancer. Cancer Immunol Res. 2021 Mar; 9(3): 337-347.

张学高, 周恭伟. 人工智能+医疗健康: 应用现状及未来发展概论. 北京: 2019, 电子工业出版社.

张旭东, 陈校云, 舒婷. 中国医疗人工智能发展报告(2020). 北京: 2020, 社会科学文献出版社.

张曼. 人工智能在检验医学发展中的重要作用. 中华检验医学杂志, 2021, 44(2): 100-102.

曾俊祥, 潘秀军, 沈立松.检验医学与人工智能的现状与未来. 中华检验医学杂志, 2020, 43 (12): 1145-1149.

Lippi G, Plebani M. Integrated diagnostics: the future of laboratory medicine? Biochem Med (Zagreb), 2020., 30: 010501.

Luo Y, Szolovits P, Dighe AS, et al. Using machine learning to predict laboratory test results. Am J Clin Pathol, 2016., 145: 778-788.

阳莎, 陈鸣.人工智能在检验医学领域的应用与趋势. 中华检验医学杂志, 2021, 44(3): 186-190.

毛远丽. 医学大数据与人工智能在临床实验室中的应用前景[J].临床实验室, 2021, 15(8):10-15.

温冬梅, 郝晓柯. 基于患者数据的实时质量控制建立原则及研究进展[J].中华检验医学杂志, 2022, 45(01): 82-86.

国务院办公厅.国务院办公厅关于促进和规范健康医疗大数据应用发展的指导意见》(国办发〔2016〕47号), 2016.

国家卫生健康委员会.国家健康医疗大数据标准、安全和服务管理办法(试行), 2018.