基于电子病历大数据分析的疾病预测建模研究

2022-09-11

信息时代的到来促进了医疗行业的信息化发展, 大部分患者的诊疗记录都通过电子病历的方式进行存储。电子病历的出现不仅意味着病例记录的存储形式出现了变化, 还实现了医疗信息资源的共享。电子病历信息数据包含众多有价值的信息, 如疾病的易发年龄、疾病间的关系等内容。在此基础上, 基于电子病历的大数据分析, 可以进行疾病的预测, 本文主要对疾病预测建模进行分析。

一、基于电子病历大数据分析的疾病预测建模研究

(一) 电子病历数据的集成和清洗

电子病历数据有多种类型, 再加上医院的信息化建设程度不一, 在患者诊疗信息数据库的构建方面缺少统一的标准。所以在进行疾病预测建模之前, 需要对电子病历的数据进行集成和清洗, 为疾病预测建模提供完善的数据信息。

首先, 电子病历数据的集成, 电子病历数据包括结构化、半结构化以及非结构化这三种, 分为基本信息、费用数据、生理生化数据以及用药数据等多个种类, 这些数据会根据来源存储于相应的数据库。要想对电子病历进行大数据分析, 首先要将分布于不同数据库的电子病历数据进行集成。

然后, 电子病历数据的清洗, 在实际的电子病历数据中, 包括很多无价值的噪声数据, 这些数据会对大数据分析的结果造成影响。因此, 技术人员需要对集成的电子病历数据进行清洗, 对电子病历中的错误、重复以及异常数据进行净化、降噪以及去冗余等处理。另外, 技术人员还需要根据Me SH词表的内容对电子病历数据进行规范化处理, 为疾病预测建模的数据识别奠定良好的基础。

(二) 电子病历数据的填补和降维

在进行电子病历大数据分析时, 缺失的数据会对分析的结果和分析的效率造成负面影响。因此, 技术人员需要进行电子病历数据的填补, 常用的数据填补方法有回归填补法、均值填补法以及多重填补法等。其中, 应用最为广泛的是均值填补法, 该方法主要是根据疾病的关联因素, 将电子病历数据分为多个层次, 分别求出平均值, 使用平均值填补缺失的数据。

与此同时, 技术人员还需要对电子病历数据进行降维处理, 通过对电子病历数据维数的降低, 选出具有代表性的数据进行分析。在电子病历大数据分析中, 数据的降维可以降低电子病历数据的复杂性, 对疾病预测建模的算法选择与结果分析提供便利。常用的降维方法有以下三种: (1) 通过主成成分分析, 提取出电子病历数据中特征根在1以上的因子; (2) 通过拉普拉斯特征映射, 提取出电子病历数据中特征向量; (3) 通过线性判别分析方法, 提取出电子病历中具有相关性的因子。分别应用三种降维方式所得的样本数据进行建模, 选出最佳模型用于疾病预测。

(三) 疾病预测建模

在经过集成、清洗、填补以及降维处理之后, 电子病历的数据满足大数据分析的要求, 体现出可分析的状态。通常来说, 在三种降维方法处理之后, 电子病历数据分为四个数据样本, 分别是没有降维处理的原始数据和三种处理方式所得的数据, 然后明确原始数据的基线精度, 通过机器学习工具进行数据样本的划分、相关参数与算法的选择, 从而完成疾病预测建模, 进行预测模型的可视化;最后, 通过多种评价方式 (Kappa指标评价预测模型以及差异性检验等) 对疾病预测建模的效果进行分析, 将疾病领域中的隐藏知识显性化[1]。

二、基于电子病历大数据分析的疾病预测建模的实证研究

(一) 电子病历数据来源与处理

本文选用国家人口与健康科学数据共享平台的临床医学数据, 对糖尿病患者的电子病历进行大数据分析, 建立预测模型。糖尿病患者的电子病历主要包括诊断表、基本信息表、生理与生化指标表以及用药表等数据信息, 共包括45803条生化数据、591694条糖化数据、16508条诊断数据[2]。

第一, 电子病历数据的集成, 使用Excel 2007对样本数据进行归纳集成, 通过VLOOKUP函数将每一个Excel表中同一患者的patient ID属性链接在一起, 实现同一患者诊断表、基本信息表等数据信息的集成。

第二, 电子病历数据的清洗, 使用Excel2007对样本数据进行去重, 并将patient ID属性值中含有“乳糜”、“已复查”或者“待复查”等异常状况的数据进行删除, 实现电子病历重复数据与异常数据的处理。

第三, 电子病历数据的规范化, 使用Me SH词表对诊断表中的“2型糖尿病”以及“1型糖尿病”进行规范化处理, 将其划分为“糖尿病”或者“糖尿酮症”等八类病症, 标注为“诊断”属性。

第四, 电子病历数据的填补, 在通过上述处理之后, 共得到8788条电子病历数据样本。由于糖尿病的关联因素为性别及年龄, 所以本文根据性别及年龄对患者进行分层, 年龄分段如下:45岁以下的青年, 45岁到59岁的中年, 60岁到74岁的老年前期、75岁到89岁的老年、90岁以上的长寿老年人。分别计算男性与女性在不同年龄段患有糖尿病的频率, 使用平均值完成电子病历数据的填补。

第五, 电子病历数据的降维, 通过SPSS 18.0对电子病历数据进行主成分的分析, 使用上述三种降维方法对填补完成的样本数据进行降维处理。

(二) 疾病预测建模与评价

首先, 疾病预测建模, (1) 基线精度的明确, 通过Weka中的Zero R分类器计算得出未降维样本数据的基线精度, 为95.3459%, 且ROC曲线下面积是0.499; (2) 算法的选择, 通过对基线精度以及ROC曲线下面积的分析可知, 样本数据的分类存在失衡现象, 需要应用过采样SMOTE算法进行样本数据的随机插补, 保障样本数据的平衡性, 在插补完成之后, 所得的ROC曲线下面积是0.500, 表明数据具备较高的准确率; (3) 预测模型的构建, 没有降维的样本数据及三种降维方法处理所得的数据作为样本, 通过Weka的决策树J48算法, 构建糖尿病预测模型, 分析构建的四种模型可知, 第一种降维方法处理的数据构建的预测模型具备更优化的维度结果。具体的决策树可视化模型如图1所示:

然后, 疾病预测建模的评价, 对建立的四种糖尿病预测模型进行Kappa检验以及差异显著性检验, 虽然检验的结果均具有统计学意义, 但是检验的结果均表明第一种降维方法处理的数据构建的预测模型准确性相对较高, 与真实结果更为贴近[3]。

三、结论

综上所述, 电子病历的数据信息可以在大数据挖掘技术的应用下, 为医疗行业发展提供有价值的信息。通过本文的分析可知, 技术人员可以应用大数据技术, 结合电子病历的数据信息, 实现疾病的预测, 疾病预测建模包括数据处理与建模这两个过程, 要求设计人员严格按照标准流程进行数据处理, 选择最佳的算法进行建模, 保障疾病预测模型的准确性, 促进医疗行业的发展, 提升我国医疗水平。希望本文的分析可以为相关研究提供参考。

摘要：本文从医学信息学的角度入手, 基于电子病历大数据分析, 进行了疾病预测建模的分析, 首先介绍了疾病预测建模的步骤, 技术人员需要进行电子病历数据的集成和清洗、填补和降维, 再通过明确电子病历样本数据的基线精度, 选择合适的算法完成疾病模型的建立;然后结合临床医学数据, 进行了糖尿病预测建模, 建模的结果显示, 通过本文建模方法构建的糖尿病预测模型与真实结果具备较高的一致性。

关键词：电子病历,大数据,疾病预测