浅谈生物样本库的智能化发展和意义

作者:王伟业 11299
2021-12-16

临床实验室

王伟业,美国M. D. Anderson肿瘤研究中心生物化学与分子生物学博士,生物样本库建设信息化管理与应用专家。作为跨学科专业人士于2012年引进回国工作,任职于上海交通大学医学院附属新华医院,担任环境与儿童健康上海市和教育部重点实验室副主任,新华医院生物样本库主任,教授和博士生导师。王伟业曾先后在美国M.D. Anderson Cancer Center,Baylor College of Medicine,Wyeth Research和Medical College of Wisconsin等科研机构从事生物医学研究,包括机体在胚胎发育过程中基因调控细胞分化的分子机理;激素类细胞与细胞衰老的基因调控机理;神经系统细胞死亡的分子生物基础研究和新药研发;人类疾病相关基因在人类和大小老鼠基因库染色体标记和定位方面信息学研究;是多项美国专利发明合作者之一,曾获选中科院“百人计划”。近年来主要从事生物样本库建设和信息化管理方面的工作,目前的研究工作重心为生物医学科研信息应用模式研究和生物样本库信息化发展,促进资源信息共享。王教授领导的IT合作团队研发的生物样本库信息化管理系统(BIMS系统),特别强调临床等相关信息对研究性生物资源的重要性,该系统在样本库建设和管理发挥作用。王教授领导由科技部国际科技合作重大专项支持的国际合作项目,与加拿大合作探索应用统一多方数据元素的方法和数据屏蔽技术,建设信息共享机制和运作模式,促进国内国际合作研究以及是样本资源的共享建设。王教授结合多方面的相关研究,其提出了以多元素相互协调(Contextualization)为主导,提出“平台化医学研究资源”的理念,系统性地探讨临床资源应用于临床研究的模式和方法。鉴于其在生物医学研究资源应用信息化建设的创新与引领作用,获选以“与创新同行”为主题的“科学中国人(2014)年度人物”,作为相关领域的引领者之一走在领域发展的前沿。


中国生物样本库的发展历程是理念认识转变的历程:发展初期,生物样本的质量问题首先成为样本库建设的关注焦点,引起人们对生物样本质量的极大重视。之后由于生物样本应用的局限性认识到储存不是建设生物样本库的目的,由于缺乏对生物样本的具体认识与了解,应用问题随之变得日渐显著,认识到没有应用的生物样本库是一种“储存性”的浪费。然而临床相关信息,如病史和临床检验数据信息,对于认识生物样本的生物特征、确定其应用方向、确定其能否满足回答科研问题的需求也极其重要。如果我们把认识这三个重要元素(质量、应用与信息)称为生物样本库发展的第一个阶段,那么现在应该进入第二个阶段。笔者认为第二个阶段的特征也由三个重要元素构成,即:



01

以构建临床研究资源或平台为导向开展基于资源内容与特征

的研究,如2016年国家精准医学研究指南中强调的建立大型健康队列和重大疾病专病队列,构建多层次精准医学知识库体系和生物医学大数据共享平台。


02

构建研究资源需要采用策略性的方法,即在构建资源之前就要有科研方向的设计,而设计往往决定了资源的应用价值,这是应用策略性方法构建资源的要素。如应用于病因学研究的资源重在确定生物样本采集的时间节点;应用于临床诊疗研究的资源重在区分疾病与对照,以及疗效分析与评估的可行性;而应用于干预研究的资源重在时间、分析与评估方法;应用于转化应用的资源重在资源构建方法的可推广性。

03

资源与平台构建与管理包括多方面因素,其方法要能够指导资源构建和应用,促进医学科研的决策力(Decision Making),这就是生物样本库的智能化,也就是第三个重要元素。


“智能化”是指由现代通信与信息技术、计算机网络技术、行业技术、智能控制技术汇集而成的针对某一个方面的应用。智能化在生物样本库的生物样本采集、运作、管理和应用方面的决策便是智能化在生物样本库的最有效应用。智能化发展也是随近年来生物样本库在国际上的发展趋势而发展。这些变化体现在:



19.png
 01 

由以生物样本为中心发展为以人(健康者或患者)为中心,即生物样本库的核心内容是围绕着与个人相关的资源与信息;

 02 
由以资源为中心发展为以数据为中心,也就是由生物资源转化为数据资源;
 03 
对一个生物个体的了解变得更加重要,研究已经从单方面的信息了解走向全方面认识;
 04 
信息资源从个体数据库走向网络与多数据的整合有利于获得对信息的整体观分析。


生物样本其本身几乎没有什么价值,其价值在于既含健康或疾病相关的临床信息,又含有通过研究方法和生物技术产出的大量表达健康与疾病发生、发展或转归的信息。生物样本相关信息来源主要包括三个方面:临床信息、生物样本采集相关信息、通过研究方法从生物样本获得的生物信息(如表达个体健康或疾病变化的生物标志物)。生物样本信息化的目的就是为研究者找到回答科研问题的样本;找到研究者需要做随访和深一步研究的个体;找到综合性分析所需相关信息,排除无关信息,建立新的研究思路与设想。美国NIH肿瘤研究所(NCI)2015年曾经报道阐述缺乏高度信息化的生物样本是阻碍当前肿瘤研究与临床治疗的关键障碍之一,所以生物样本的信息化与信息应用是生物样本库智能化发展的第一步。


生物样本库智能化的核心内容是促进临床资源构建、管理与应用三个方面的智能化,就是将生物样本、生物标志物和相关临床信息有机地结合与分析,加强整合分析(Meta-Analysis)的能力,促进研究的决策力。但是智能化面临三个方面的巨大挑战,即生物样本库的信息化、数据的可分析性、数据标准与整合。这些问题主要具体表现在:


01

由于对生物样本缺乏认识(Poor Annotation),造成生物样本的应用广度和深度不够;

02

多中心来源的生物样本与相关信息之间的协同性(Interoperability)低;

03

生物样本与相关信息由于收集方法和/或内容不同而产生异质性(Heterogeneity);

04

由于诸多因素,尤其是数据的异质性以及信息管理方面的不相容而造成数据整合(Integration)困难;

05

缺乏数据信息交流的可能性和可分析性,共享(Sharing)数据的可行性低,也就造成生物样本资源无法整合与共享。总之,最大的问题是每个样本库缺乏有效的数据/信息管理系统。解决这几个方面问题的关键是相关元素的标准化。建立标准的意义在于加强样本库构建与操作之间的协同性;减少不同样本库之间样本与数据收集方式、相同主题的信息内容和相应数据呈现方式的异质性;有可参考的指南保障相同的事在不同时间操作与管理方式相同;相同的事在不同样本库的运作与管理方式相同;最终目的是做到不同样本库获得的资源在相同主题中是相容的,需要的时候即可相互整合、交流与共享。


生物样本库智能化发展使得基于生物样本库的研究产生大量数据,对于数据的元分析(Meta-analysis,即统计学上的整合分析)和生物信息学需求增加,结合生物样本相关数据、生物标志物和临床信息已成为重点研究策略,资源的智能化建设决定着整合分析的质量。所以生物样本库的智能化发展是提高生物样本库的效益、促进相关评估体系的建立、使应用价值最大化的必要步骤。


总之,生物样本库的智能化发展就是充分利用生物样本库积累的多方面信息内容,将不同来源但密切相关的信息有机整合与利用,挖掘其规律性特征,从而改善生物样本库的运作与管理,发挥其最大应用价值,影响科研的决策力。其发展方向可以概括为生物样本库管理的智能化、生物样本生物信息的可视化和其应用价值的最大化。