大数据算法对体检异常代谢指标的智能甄别与疾病判断及动态模型的建立

作者：张明珠陈凯刘红英刘树业天津市第三中心医院检验科 5754 2022-06-14

随着人们物质生活进步和环境的改变，人的体质寿命等健康指标都在发生着变化，而我们体外诊断项目的正常参考范围往往是固定不变的，也不能对一些随年龄渐变的指标做动态定义，所以希望有一种能随年龄性别、甚至地域环境等做动态评估的健康模型方法。

# 研究路径

利用一家医院的三年体检大数据常用代谢指标，针对不同性别年龄分段，在不同区段内设定一定范围（如80%）人群定义为正常范围，对某个人的所有代谢指标能一次性智能甄别出超出设定范围（80%）的指标是哪些，处于的分位数给出具体值，这个大数据方法的“正常值范围”的判定和传统指南标准再结合分析，指导临床和体检患者的诊断及健康评定意识，此外，再把一些偏离大的指标在疾病集中找出具有相似特征的人群，对其所得的疾病形成词云，以此作为健康预测和疾病诊断的参考辅助。

# 应用方向

01 对各指标的健康状态做动态评测，让测试者可有横向范围比较的选择。

02 对人民大健康指标做长期的动态观察，发现一些随着物质生活环境改变而引起的人代谢寿命类的变化。

03 通过多维度指标的综合计算，从机器学习中得到新的疾病预测模型。

04 修正优化体检套餐，使之更有利于多种常见疾病的预测判断。

05 可以对单项或联合几项指标找出同样特征的人群，到其他病科甚至其他医院的数据集中找到确诊的是哪些疾病，这有助于拓展了解指标的更多意义，如发现集中在某种或几种疾病上，则可以针对此种疾病再横向拓展观测维度，单独对此种疾病特征进行学习，可能提炼出精准的计算模型。

06 也可用于单一种疾病多项指标的协同变化规律的研究。

# 应用总结

体检数据中蕴涵着大量信息特征，且对于综合性医院的体检数据往往健康人群和各种疾病人群的分布都比较均衡，数据量足够大的情况下都是趋于正态分布的，这是非常重要的可利用的一点，我们曾利用它来计算出了精准的室间偏差，跟实验做出的偏差非常接近（可能后续发表，有兴趣的朋友可以联系或关注下），对于临床需求，我们是更希望能从众多的项目维度中学习出某种疾病或健康的模型，发觉出人脑不可能观测出的特征（当然这里我们必须忽略它的可解释性，因为本身多维度空间的东西就是无法想象的，不能接受这点的话，科学就要永远停留在人类有限的认知上）。

可能是大数据时代还处于萌芽期、也可能是数据资源的获取困难或跨界学科的分析技术欠佳，目前在医学大数据的学术领域并没有太多的有重大发现的文章，（且不谈商业领域的“黑匣子”），大多还是传统的，从经验研究通路，由理论设计实验，从实验得出数据，最后才拿数据统计来印证实验，而这样的过程，一开端还是由人的思维认知为起始的，数据分析并没有能真正发挥它超越人认知的框架。

所以，要突破这种习惯思维模式，从数据本身入手，又在实际经验的指引下，逆向分析研究，至少才有可能突破经验的禁锢拓展发现未知领域！

# 后续跟进

本文重在打开一种思路方法，希望帮助于今后学者向以上6个方向上的深入研究，后期也会把python的源代码发布在GitHub上大家共同学习讨论。

我们用到了很多的数据处理手段，且依赖动态的训练集数据，适合做长期观测发现，因此如需开展，需要建立数据分析平台软件，内嵌算法处理，并不适合用常规的统计软件分析，如有兴趣开展的医院可联系我单位提供免费的平台分析系统并做个性化定制。

# 数据集介绍

体检集：来源于天津市第三中心医院

疾病集：来源于天津市北辰医院

数据前处理

01 清洗数据：去除非法字符和含空值记录；

02 选取与观测指标：需根据数据表的具体形式，筛选出此数据集中尽量多的记录又含有最多的项目组合（本文用了算法筛选，如事先知道最多的组合项目也可直接取维度指标），原始数据形式如下。