高血压病案数据挖掘论文

2022-04-20

摘要:目的:采用BP神经网络构建中医糖尿病诊断模型,利用真实的糖尿病中医病案,实现糖尿病的诊断预测。方法:利用1288个糖尿病临床电子病历,通过数据清洗后得到质量较高的电子病历数据805个、对病案数据整理、编码后,在MATLAB7.0环境下,利用BP神经网络算法,通过症状输入,预测糖尿病疾病诊断。今天小编为大家精心挑选了关于《高血压病案数据挖掘论文(精选3篇)》相关资料,欢迎阅读!

高血压病案数据挖掘论文 篇1:

数据挖掘技术在高血压病种上的应用研究

摘要:近十年来我国卫生信息化建设已取得了飞速的进展,信息系统应用水平不断提升,大量的医学信息被科学的记录下来,如何从这些医学数据资源挖掘出深层次的、隐含的、有价值的知识,就变得越来越重要。该文在对各种数据挖掘算法进行分析研究的基础上,选择IBM SPSS Modeler作为数据挖掘平台,以某社区医院电子病历作为数据源,利用不同的挖掘算法对电子病历系统中的数据进行研究。通过数据的采集、数据清理和数据筛选方法,结合常见的高血压病案,用不同的挖掘模型进行比较分析,总结出各种算法的特点及适用范围,得出适合这种常见病的挖掘模型,并给医务人员提供简单而有效的数据挖掘模型。

关键词:电子病历;数据挖掘;关联规则

1 绪论

1.1研究背景

随着计算机技术和数据库技术的飞速发展,各种卫生信息系统在医学领域的广泛应用,由此积累下来的海量医学数据,在此海量的医学数据背后隐藏着许多重要的有用信息,怎样才能把深层次的、隐含的、有价值的知识从数据资源中把挖掘出来,这在当今日趋重要。在国内,数据挖掘技术在医疗服务领域的研究有所报道,但到目前为止,针对于不同的医学目标实现医学数据挖掘应用,怎样科学地选择合适的数据挖掘算法,此类方法学研究在国内尚还较少。

临床信息系统(CIS)中的电子病历系统是以病人为主导,包含所有横向的、纵向的医院信息和临床信息数据的系统。如何从这些数据集中使用不同数据挖掘技术挖掘出各种疾病的成因以及它们之间的相互关系、和各种疾病的发展规律,并总结各种治疗方案的诊疗效果,这对疾病的预防、诊断、治疗和医学研究意义非常重大。本文是基于SPSS Modeler软件平台的基础上对医学数据进行规则的挖掘和知识探索。

1.2 国内外数据挖掘的应用及研究现状

在国外,目前在金融领域、生物工程领域、企业分析以及网络信息搜索等许多领域数据挖掘技术都有了很好的应用[1]。国际知名调查机构通过技术调查,认为未来五年内数据挖掘和并行处理体系将挤在十大新兴技术投资焦点的前列,“数据挖掘和人工智能”将列在首位的。在我国,数据挖掘技术最早在如中国海关集团、人民银行、上海通用汽车等少数实力雄厚的国企或外资企业中得以充分应用。也有少数应用在经济上,如使用一般数量化模型如人工神经网络方法、回归分析法和时间序列方法在经济上对于股价指数进行预测。目前在国内,数据挖掘技术在医疗服务领域的研究已有一些成果,但至今为止,怎样科学地选择适当的数据挖掘算法,针对不同目标的实际应用挖掘,这方面的方法学在国内研究还较尚少。

1.3 研究意义

本研究以某社区医院电子病历作为数据源,对数据挖掘算法在电子病历系统中的应用进行了研究。结合常见高血压病案,通过使用不同的挖掘模型进行比较分析,总结出各种算法的特点及适用范围,得出适合这常见病的挖掘模型,并给医务人员提供简单而有效的数据挖掘模型。同时通过研究探索性电子病历数据挖掘技术的实现,也将进一步做更复杂的数据查询提供参考模式,这也给将来医务人员、科研工作者使用更高层次的数据分析方法解决诊疗水平提供有效的科学的途径,具有极其重要的现实意义。

2 数据挖掘综述

2.1 数据挖掘定义

从技术角度来解释,数据挖掘就是通过自动分化分析数据仓库的大量的、有噪声的、模糊的、不完全的实际应用数据,进行提取人们不知道的隐性的知识和规律,依托于数据库、数据统计和人工智能技术的发展,最大可能地利用已有信息和数据,归纳性推理,挖掘潜在规律[2]。数据挖掘技术主要由三个部分,即数据、算法和技术、建模能力组成。

2.2 常用的数据挖掘算法

2.2.1 神经网络

神经网络是由大量的简单的处理单元组成的,自适应非线性的大规模动力系统,是神经科学、统计学、计算机科学和物理学的交叉学科[3]。神经网络能够有良好的自适应、自学习和高容错能力,并具有分布式存储、并行处理以及联想等特点。目前在常用的多种训练算法和网络模型中,多层前馈型神经网络是应用最广泛的。

BP网络是一种由输入层、输出层和隐含层组成的单向传播的多层前馈网络,如图①所示,是目前在各行各业应用最多的一种模型。

2.2.2 决策树

决策树算法是属于的分类、回归和关联型算法,它主要用于对离散型和连续型的数据进行预测性的建模。

决策树的常用算法有:

1) CART算法

CART算法是一种二分递归分割技术,是结构简单的二叉树,它将总样本集分成两个子样本集,使每个非子结点都有两个分支[4]。

2 )CHAID算法

CHAID提供了一种在多个自变量中自动搜索能产生最大差异的变量方案。

CHAID过程:建立细分模型,根据卡方值最显著的细分变量将群体分出两个或多个群体,对于这些群体再根据其他的卡方值相对最显著的细分变量继续分出子群体,直到没有统计意义上显著的细分变量可以将这些子群体再继续分开为止。

3 电子病历分析数据集的建立

高血压是社区医疗中最为普遍和严重的疾病,其中高血压并发症多,病生理复杂,病症不明显,近年来发病率上升迅猛.社会经济危害性严重.从发展趋势上看尤其值得重视。下面以高血压形成病因作为研究对象,构建一套简单易行的计算机辅助医学数据挖掘系统解决方案。

数据集的预处理步骤主要由:数据集成(dataintergration)、数据清洗(dataClenanig)、数据消减(datareduetion)、和数据转换(datatransformation)几个步骤构成。数据处理是数据挖掘是否能正确得到结果的最重要的一步。本章主要从电子病历中提取原始数据,使用SQL SERVER软件和EXECL软件进行清理数据,筛选,根据数据挖掘所需的字段属性值来分离出不同的分析数据表,再使用SPSS Modeler 14.2软件对数据筛选,不断训练数据集,达到数据挖掘模型的要求。

3.1 数据来源

本数据来源于某社区医院慢性病档案管理系统采集的数据,其中储存的数据库文件为“社区医疗病历.mdf ”文件。本数据库包含有,有”病人”、“病史”、“医生”、“体格检查”、“医院名称”、“用户”“用户权限”、“权限类别”、“用户权限组”等13个数据表表格。本案例主要使用”病人”、“病史”、“体格检查”、“医生”这几个数据表来获取数据源。

3.2 数据预处理

通过SQL SERVER数据库管理系统把存放在Delphi数据环境中的原数据,生成社区医疗病历.mdf 数据库,为了在更好地清洗数据,本文把数据库再转换成EXECL表格。把需要的”病人”、“病史”、“体格检查”、“医生”表格分别转化“高血压分析表”表。

3.3 数据清洗

数据源是数据挖掘的关键,对采集的原始数据进行清洗,这样才能保证信息源的数据质量。首先把其中原数据库中的12个信息表处理成需要使用的两个电子表格“预测数据源”,“高血压预测”,删除不需要的字段,修改录入错,合并相同数据等,考虑到一些没必要的因素,对各个表中删除不必要的字段, 最终变成“预测数据源”表和“高血压预测”表;鉴于线性分析的要求,把高血压中的“初步诊断”字段修改为逻辑型或数据值。

3.4 数据集成和变换

使用SQL SERVER 2000,把这些表格转换成EXECL文件表格形式。

1) 转换数据源:把社区医疗病历数据库.mdf 文件换成EXECL表格研究所需要的数据表格进行研究。转换数据名为:医疗数据库,使用其中的“病人”,“病史”和“体格检查”数据中的数据源作为主要研究对象。

2) 数据分析:使用SPSS Modeler软件对数据表进行分析。经分析,发现原数据的几个表格数据不够连接,没有可比性,再返回EXECL表格进行数据处理,把体格检查表和病人表、病史表的数据源部分数据按“病人编号”排序复制成一个表格,删除“用药”这一列,如图2示:

3) 数据处理:把现“病史”这一列分解成几列,作为以后各个单项研究的基础,数据挖掘的需要,分别生成“预测数据源”表和“高血压相关分析”表。

3.5 数据获取

在EXECL表中对已处理的表应用于SPSS Modeler中作为数据源,其中使用FIND()函数,把原字段“初步诊断”中的结论转换成“布尔”型数据,过程如图3:

数据处理是数据挖掘是否成功或能否挖掘到有用数据结论的一个关键,本章利用数据库软件及表格处理软件对原数据进行采集、清理、排除的研究,得到挖掘SPSS Modeler所需要的数据源,为下一章进行挖掘模型做好准备。

4 几种常用挖掘算法在电子病历数据中的分析研究

4.1 人工神经网络法

4.1.1 建立临界值模型

4.1.1.1采用RBFP神经网络模型对高血压进行预测分析

此模型是用相关的数据来说明其他指标对高血压的成因影响。挖掘过程包括探索、数据准备、训练。

1)探索

表示神经元的数据字段包括:

[病人编号\&年龄\&T(体温)\&P\&R\&身高\&体重\&就诊时间\&主诉\&现病史\&既往史\&是否有遗传\&初步诊断\&]

由于初步诊断对数据进行预测排除,选择“年龄,体重,高压,低压”作为线性数据,测试这些数据与结论是否成线性相关,结果如图4。

3) 训练

将数据导入IBM SPSS Modeler,根据需要建立工程,引入经过处理的数据源,显示数据源视图,定义挖掘模型,最后部署项目并处理挖掘模型。经过字段筛选,再制定训练规则,其训练规则使用如图5所示的规则,规则可以使用的最大时间为15分钟,准确性要达到90%以上。

4) 模型分析

通过执行上面规则的数据流,得到本模型的结果为图6神经网络预测:

从模型分析上显示,身高,体重及年龄对高血压的影响是最大的三个因素,并且结果直观,易懂,从此分析结果看使用神经网络来预测高血压病因是可行的,下面会进一步分析验证其指标。

4.2 高血压病因的决策树-CHAID模型分析

1)系统模型设计

本文要研究高血压的病因与哪些因素相关,因此下面使用决策树中的CHAID算法进行挖掘病案成因。决策树中的CHAID算法提供了一种在多个自变量中自动搜索能产生最大差异的变量方案,其模型需要一个单一的目标和一个或多个输入字,它以因变量为根结点,对每个自变量(只能是分类或有序变量,也就是离散性的,如果是连续变量,如年龄,收入要定义成分类或有序变量)进行分类。

2)模型的训练

高血压的病因CHAID模型挖掘测试,按上面的模型要求,处理好数据源,通过运行,结果显示如图7所示:

图形分析:使用CHAID模型测试的结果发现只有“身高”属性对高血压的病因形成是最主要的, 也就是说由根结点出发,生成的组只有一个,根据属性变量预处理的具体策略,如果仅有一个或两个分组,则不做合并处理至于原因有可能是因为本文的数据源输入及选取有一定的不准确性,故此结果对此病例作用不大,不能为医生提供预防病因的成因研究,所以此法对本病例不适合。

通过上面的挖掘分析结果显示,使用决策树中的CHAID算法对高血压的病因形成在本文的病案中结果都作为不合理处理。

4.3 高血压病因的线性模型分析

若采用线性建模,使用以下字段作为输入和目标, 作为关键输入和输出量,同时把初步诊断字段进行处理,因输出目标只能是逻辑型或数据值,因此把初步诊断为高血压者改为数字1,其他改为数字0,进行预测,结果发现“年龄”字段对高血压是影响最大的,结果如表1:

最终的结果分析图如图8线性结果分析所示,其目标结果的图形表示如图9线性目标结果的图形所示。由此可得知高血压病成因与“年龄”和“体重”是相关性最大的。

4.4模型验证分析

4.4.1 神经网络预测高血压模型分析验证

经过上面的使用神经网络预测高血压模型预测分析,我们得到了以下的预测结果如图10所示:

从图11结果得知,该预测的准确度达到92%,此准确度是可以作为我们评定这个模型是否成功的指标之一,我们在训练模型中规定了大于90%以上的准确度是可行的,同时我们在分析模型时其使用的模型规则,其置信度是基于预测的概率基础上的:从结果中我们可以看到高血压的形成与“身高”、“体重”、“年龄”这三个因素是最密切相关的,这说明结果是有一定的预测意义的。

我们还可以转换其神经元模型显示模式,选择网络图形显示,结果如图12神经元模型所示,根据此图的样式也可看出经过一层隐藏层最后得到跟高血压病症成因相关的比较重要的元素是年龄、体重与身高这几个指标,并且此指标也与线性模型研究结果一致,这些图形的显示直观易懂,因此神经网络模型分析高血压成因的使用是成功的,并且简单可行的。

结果分析: 所以我们可以得到结果该关联规则是“强关联规则”,此其结果直观易懂,操作简单。

5 结束语

通过神经网络模型预测高血压病发病成因,得到了影响高 (下转第6页)

(上接第4页)

血压成病的主要因素。本文通过采用线性回归法、人工神经网络法和决策树算法中的CHAID模型来诊断知识,得出线性回归法与人工神经网络这些模型在本病案中均易被医务人员使用者解读;并总结得出神经网络模型是预测影响高血压的主要因素病因的最合适预测算法,并且所获知识的可靠程度以及准确率明显优于其他算法,决策树中的CHAID算法对高血压的病因形成在本文的病案中结果都作为不合理处理,这是从使用者易理解性、判别分类准确率和可靠性角度综合之结果。

参考文献:

[1] 易静.医院信息数据挖掘及实现技术的探索[D].重庆医科大学博士论文,2007.

[2] 周怡,王世伟.医学数据挖掘--SQL SERVER2005案例分析[M].中国铁道出版社,2008.

[3] 丁小丽,杨涛,周金海. 利用人工神经网络分析疾病的影响因素一一以高血压为例[J]. 医学信息,2009(1):4-5.

[4] 王友仁,张砦,崔江,等.储剑波智能组卷系统的建模与算法研究[J].系统工程与实践,2004(9):85-89.

[5] 魏平,张元.一种求解组卷问题的遗传算法[J].宁波大学学报(理工版),2002,15(2):47-50.

[6] Kayawa M Sugita Y Morooka Sensor Diagnosis System Combining Immune Network and Leaning Vector ,1996,117(5):44-55.

[7] 苏新宁等.数据仓库和数据挖掘[M].清华大学出版社,2006.

[8] 韩力群.人工神经网络教程[M].北京邮电大学出版社,2007.

[9] Warren Thomthwaite擞据仓库工具箱[M].清华大学出版社,2007.

[10] 百度搜索网 (http://www.biosou.com/index_newshow.php?newsid=70848)

作者:甘昕艳等

高血压病案数据挖掘论文 篇2:

基于共轭梯度下降算法的BP神经网络的中医糖尿病诊断模型研究

摘要:目的:采用BP神经网络构建中医糖尿病诊断模型,利用真实的糖尿病中医病案,实现糖尿病的诊断预测。方法:利用1288个糖尿病临床电子病历,通过数据清洗后得到质量较高的电子病历数据805个、对病案数据整理、编码后,在MATLAB7.0环境下,利用BP神经网络算法,通过症状输入,预测糖尿病疾病诊断。结果:通过数据分析临床验证正确率达到95%以上,利用人工神经网络算法可以辅助糖尿病的诊断。结论:疾病的诊断准确性是中医临床用药的关键,利用神经网络诊断糖尿病为疾病诊断提供一种方法,有利于提高疾病诊断的准确性。

关键词:糖尿病; BP神经网络;诊断;预测

开放科学(资源服务)标识码(OSID):

1 概述

利用关键词“BP神经网络”和“中医诊断”检索知网,万方,维普等数据库,分析被引量大于40的相关论文,研究涵盖了人体脉象、中医证候分析、中医诊断研究等。神经网络结合中医中药和模型准确率的提高是未来发展的趋势。其中关于疾病诊断的预测论文[1]-[20],代表作者樊晓平提出了通过多层前馈型人工神经网络对中医抑郁症进行分类,代表作者曾子杰提出了基于关联规则和人工神经网络的大肠癌中医症治规律研究,代表作者许朝霞提出了支持向量机和人工神经网络的心血管疾病中医证候分类识别研究。代表作者秦中广提出了粗超神经网络在中医智能诊断系统中的应用,利用Rough Set技术对人工神经网络进行预处理,求取核属性,构造粗糙人工神经网络, 并应用到中医类风湿病分型诊断建模。代表作者孙贵香采用一种基于共轭梯度算法的 BP 神经网络,构建冠心病中医证候 BP 神经网络模型,并运用检测样本对该模型的性能作出评价,准确率达到90.5%。针对糖尿病的疾病预测,李建生等提出径向基神经网络,并利用聚类分析确定RBF神经网络隐层的参数,运用最小二乘确定RBF神经网络输出层的参数.并通过模型检验,验证了基于200个训练数据聚类分析的RBF神经网络用于中医证候诊断的有效性、准确率达到94.4%。

实验利用现有的中医大数据平台,采集98家医院的真实电子病历数据,利用真实病案数据,通过BP神经网络建模,预测糖尿病的诊断,准确率达到95%以上。

2 数据来源

2.1资料来源

BP神经网络的模型的建立需要正确可靠的数据。研究利用四川省中医大数据平台中的真实临床数据作为数据源。筛选较为完整,复诊率较高的结构化电子病历数据:糖尿病500例、高血压300例、咳嗽200例、冠心病200例,共1288例。 数据病例包括乏力、便秘、心悸等285个症状,选择26个频率高的症状构建输入层(图1 症状分布图),利用BP神经网络进行糖尿病预测。

3 方法

3.1数据清洗规则

数据预处理:删除错误和空白的数据[21],保证数据的正确性。替换不规范的数据[22],保证数规范统一,通过预处理后得到805例正确数据。对处理后的电子病历进行数字化编码处理。数字化编码处理的标准按照计算机二进制编码[23],0代表不存在,1代表存在。症状数字化标准:症状不出现(0)、症状出现(1)。诊断疾病(1),未诊断疾病(0)。最终得到全部为0,1的矩阵实验数据(图2 病历数字化处理编码图)。

主成分分析:将所有的症状选择主要成分作为神经网络的输入向量。对数据进行主要成分分析,主要成分的选择范围为所有症状数据采集率75%的数据。再经过主成分分析,前26个主要症状涵盖了总共285个症状的74.2%的信息。主要症状见表1 。取前26个。 主成分作为进一步分析的指标。通过主成分分析, 输入向量為提炼至26个。

病例分组:用交叉验证检验模型[25]的预测效果。将805例样本分为A、B、C三组,A组260个数据,B组260,C组285个数据,第一次选择A、B作为训练集,C作为测试集;第二次选择A、C作为训练集,B作为测试集;第三次选择C、B作为训练集,A作为测试集。最后综合三个模型的训练效果,取平均值。

4 神经网络设计流程(图3 基于共轭梯度下降算法的BP网络构建)

1) 确定网络层数。样本数据输入层有26个输入节点,采用2个隐藏层,通过反复验证,这种设计可以有效地减少网络规模。

2) 确定输入层节点数。输入层节点数取决于输入向量的维数。此研究有26个症状作为输入,所以对应有26个输入节点。

3) 确定隐含层节点数。隐含层和节点数对BP神经网络的性能影响很大。较多的隐含层节点数可以带来更好的性能。隐含层节点数由公式求得。

[M=m+n+a],

m和n分别为输入层和输出层的神经元个数,a是[0,10]之间的常数。

[M=log2N], N为输入层神经元个数。

经过多次实验,最终确定了隐含层M分别为8、4的训练的时间最短,网络模型收敛最快,最后的准确率也较高。

4) 输出层神经元个数。输出层神经元个数由输出结果确定。本次的诊断只有一个为糖尿病,所以对应有一个输出节点,节点对应的输出期望为(1,0)。

5 BP网络的结构

BP网络的输出方式:糖尿病诊断样本的期望输出值定为(1,0)。输出值与真实值误差>0.5为诊断不成立,≤0.5为诊断成立。

BP网络的测试:网络的权值趋稳,训练结束后,用验证数据对训练好的神经网络做检验。并重复第二组实验,测试结果,保证训练方法的正确性。

6 结果

测试结果显示:2次测试的平均总的识别率是 96.774%,第一个糖尿病的识别率是 98.065%,第二个是98.065%,第三次是96%,从结果中可以看到,该网络模型对于糖尿病,具有较高的辨识率。正确率均达到了95%以上。说明模型具有良好的诊断和预测能力。

7 讨论

此实验利用真实的电子临床数据,通过BP神经网络模型构建诊断预测模型,可以辅助预测糖尿病诊断。但本次实验还有以下几点需要改进。第一数据量可以适当增加,提高预测模型的准确性。第二数据编码可以不断优化,本次处理数据采用二进制编码对症状编码。每一个症状只有0,1两种输入选项,可以通过对症状的轻重设置编码的权重级别改进编码的准确性。

8 结语

实验利用症状之间的联系和差别诊断出糖尿病疾病,正确率达到95%以上,成功地模拟了临床的诊断。说明人工神经网络,人工智能在未来医疗行业的应用,在医学诊疗中的应用大有可为。未来,随着医院信息化的深入,电子病历数据会越来越多,数据越来越规范,可研究的资料数据也会越来越大。利用人工神经网络算法诊断疾病,将会越来越成熟。

参考文献:

[1] 樊晓平, 彭展, 杨胜跃, 等. 基于多层前馈型人工神经网络的抑郁症分类系统研究[J]. 计算机工程与应用, 2004, 40(13).

[2] 曾子杰. 基于关联规则和人工神经网络的大肠癌中医证治规律研究[D]. 2017.

[3] 许朝霞, 王忆勤, 颜建军, 等. 基于支持向量机和人工神经网络的心血管疾病中医证候分类识别研究[J]. 北京中医药大学学报, 2011, 34(8):539-543.

[4] 秦中广, 毛宗源. 粗糙神经网络及其在中医智能诊断系统中的应用[J]. 计算机工程与应用, 2001, 37(18):34-35.

[5] 温宗良, 岳桂华, 杨靖, 等. 基于共轭梯度算法的BP神经网络在高血压证候诊断中的应用[J]. 山东中医药大学学报, 2012(3):183-184.

[6] 孙贵香, 廖常艳, 袁肇凯, 等. 基于BP神经网络的冠心病中医证候神经网络模型研究[C]// 全国中西医结合诊断学术研讨会. 2008.

[7] 李建生, 胡金亮, 余学庆, 等. 基于聚类分析的径向基神经网络用于2型糖尿病证候诊断[C]// 第八次全国中医糖尿病学术大会论文汇编. 2005.

[8] 白云静, 孟庆刚, 申洪波, 等. 基于改进的BP神经网络的糖尿病肾病中医证候非线性建模研究[J]. 北京中医药大学学报, 2008, 31(5):308-311.

[9] 李建生, 胡金亮, 王永炎. 基于2型糖尿病数据挖掘的中医证候诊断标准模型建立研究[J]. 中国中医基础医学杂志, 2008, 14(5):367-370.

[10] 佚名. 基于K-Nearest Neighbor和神经网络的糖尿病分类研究[J]. 中国医学物理学杂志, 2018, 35(10):110-114.

[11] 黄仕鑫, 罗佳婧, 罗亚玲, 等. 基于BP神经网络模型鉴别2型糖尿病肾病的认知图研究[J]. 中华内分泌代谢杂志, 2017(33):949.

[12] 李攀. 基于神经网络的2型糖尿病并发症预测模型的研究[D]. 2016.

[13] 刘飞, 张俊然, 杨豪. 基于深度学习的糖尿病患者的分类识别[J]. 计算机应用, 2018(A01):39-43.

[14] 洪烨. 基于机器学习算法的糖尿病预测模型研究[D].

[15] 王炳和, 相敬林. 基于神经网络方法的人体脉象识别研究[J]. 西北工业大学学报, 2002, 20(3).

[16] 李建生, 胡金亮, 余学庆, 等. 基于聚类分析的径向基神经网络用于证候诊断的研究[J]. 中国中医基础医学杂志, 2005, 11(9).

[17] 樊晓平, 彭展, 杨胜跃, 等. 基于多层前馈型人工神经网络的抑郁症分类系统研究[J]. 计算机工程与应用, 2004, 40(13).

[18] Lai Y H , Ni Y N , Kokot S . Authentication of Cassia seeds on the basis of two-wavelength HPLC fingerprinting with the use of chemometrics[J]. Chinese Chemical Letters, 2010, 21(2):213-216.

[19] Xuesong L . A Fast Method for Identifying the Quality of Chinese Medicine Injections Based on Self-organizing Maps Neural Network[J]. Chinese Journal of Analytical Chemistry, 2007, 35(10):1483-1486.

[20] aafar S F B, Ali D M. Diabetes mellitus forecast using artificial neural network (ANN)[C]// Asian Conference on Sensors & the International Conference on New Techniques in Pharmaceutical & Biomedical Research. 2005.

[21] 覃華, 苏一丹, 李陶深. 基于遗传神经网络的数据清洗方法[J]. 计算机工程与应用, 2004, 40(3):45-46.

[22] 孟祥逢, 鲁汉榕, 郭玲. 基于遗传神经网络的相似重复记录检测方法[J]. 计算机工程与设计, 2010, 31(7):1550-1553.

[23] 宋擒豹, 沈钧毅. 神经网络数据挖掘方法中的数据准备问题[J]. 计算机工程与应用, 2000, 36(12):102-104.

[24] 贺昌政, 俞海. BP人工神经网络主成分分析预测模型及应用[J]. 数量经济技术经济研究, 2001, 18(9):104-106.

[25] 邱龙金, 贺昌政. 神经网络稳定性的交叉验证模型[J]. 计算机工程与应用, 2010, 46(34):43-45.

[26] 陈朝阳, 行小帅, 李玥. 共轭梯度BP算法在Matlab 7.0中的实现[J]. 现代电子技术, 2009, 32(18):125-127.

[27] 沈花玉, 王兆霞, 高成耀,等. BP神经网络隐含层单元数的确定[J]. 天津理工大学学报, 2008, 24(5):13-15.

[28] 杨伟斌, 吴光强, 秦大同, 等. 人工神经网络的各参数对系统辨识精度的影响分析及各参数的确定方法[J]. 机械工程学报, 2006, 42(7):217-221.

[29] 焦斌, 叶明星. BP神经网络隐层单元数确定方法[J]. 上海电机学院学报, 2013(3):113-116.

[30] 孔德坤, 张晓斌. 糖尿病与高血压[J]. 中华内分泌代谢杂志, 2005,21(5):68-70.

【通联编辑:王力】

作者:吴燎 程小恩

高血压病案数据挖掘论文 篇3:

基于关联分析的中老年体检数据的挖掘

摘  要:根据中老年体检报告,运用Apriori算法挖掘各个指标之间的联系,为医生、患者提供诊断参考与建议。通过安徽省某三甲医院的体检数据,筛选出40岁及以上的中老年人群为研究对象,应用数据挖掘中关联规则的Apriori算法对超重、心电图、脂肪肝、血脂、血压、血糖、尿常规、吸烟、饮酒、总胆固醇等体检指标之间的关联关系进行分析研究。研究表明,体检者的个人不良习惯、超重、高龄、高血糖和脂肪肝等都密切相关,互相影响,提出中老年人群应加强对慢性疾病的预防,保持良好的作息习惯等相关建议。

关键词:数据挖掘;关联分析;Apriori算法;中老年体检

Data Mining of Physical Examination for the Middle-aged and

Elderly based on Association Analysis

GUO Huimin

(School of Economics, Anhui University, Hefei 230601, China)

17755895356@163.com

1   引言(Introduction)

近年來,大部分医院在移动医疗兴起的形势下,都建立了数字化医疗信息系统和患者的电子信息健康档案[1],医院内部积累了大量医疗相关的数据,使得医疗信息数字化程度越来越高[2]。医疗数据不仅与每个人的生活和生命健康息息相关,而且对疾病的诊治与医学研究具有重要价值。然而目前大部分医院只是简单地进行患者医疗数据的采集与存储,缺乏对它们进行深层次的分析与利用,如何快速有效地在海量的医疗数据中发现潜在的有价值的信息是一项重大挑战[1]。

关联规则挖掘作为数据挖掘领域重要的研究分支,是当前在发展过程中比较重要、实用的技术[3]。在医学领域中,通过关联规则发现疾病患者中医症状之间的关联关系和其他症状之间存在的规律性,能够根据这些规律分析病因,预测疾病的发展[4]。本文以医院数据系统中的体检数据为研究对象,利用关联规则的Apriori算法,将每个病人的症状及其他病情诊断信息看作是一种购物篮,然后对其进行挖掘分析[2],为个人健康提供预警,为医疗诊断提供科学依据参考。

2   关联规则算法(The Apriori algorithm)

2.1   Apriori算法概述

关联分析是由R.Agrawal等人提出的一种简单实用的非监督学习算法[5],反映了事物之间的依赖或关联,试图找到数据集中隐含的或感兴趣的关系,其结果通常以频繁项集或关联规则的形式表示。最经典的案例就是“啤酒与尿布”。沃尔玛超市根据详细的原始交易信息来对顾客的购物行为进行数据挖掘,来了解顾客在其门店的购买习惯,适当地调整货架,增加购买行为。然而,挖掘出来的规则在实际中并不是都有指导意义,比如说,如果一个客户买了杯子,就会有40%的可能性买茶叶,但是我们不能依据这个就把杯子和茶叶放在一起出售,我们借助置信度和支持度这两个评估指标来对关联规则进行有价值的评估,设置最小的支持度和置信度使我们得到的关联规则具有一定的参考价值。

2.2   相关概念

Apriori算法是关联规则算法,是非常经典的一种数据挖掘的算法,应用十分广泛,可以较好地发现数据之间的隐藏规则。

(1)项和项集。项为交易数据集中的每一种商品,项集为项的集合。

(2)事务。事务为交易数据集中对应的每一条记录。

(3)关联规则。关联规则指的是在X出现的同时,Y也会出现,其中X、Y均是I的真子集,并且二者交集不为空。

(4)支持度。支持度计算公式为:

表示XY同时出现的概率占总数的概率,表示X和Y两个事件同时发生的概率。

(5)置信度。置信度计算公式为:

表示在Y出现的条件下X出现的条件概率。

(6)频繁项集。频繁项集是指支持度不低于最小支持度的阈值的项集。

(7)强规则。强规则是指同时满足最小支持度阈值和最小置信度阈值的规则。

2.3   Apriori算法基本步骤与实现

Apriori算法的过程主要分为两步[6]:根据支持度阈值找出所有的频繁项集;通过置信度阈值找出频繁项集中的强关联规则。Apriori算法的基本步骤如下:

(1)首先扫描所有的数据集D,产生候选1-项集的集合C1。

(2)由候选1-项集的集合C1根据最小支持度产生频繁1-项集的集合L1。

(3)对k>1,重复执行步骤(4)、(5)、(6)。

(4)由Lk执行连接和剪枝操作,产生候选(k+1)-项集的集合C(k+1)。

(5)根据最小支持度,由候选(k+1)-项集的集合C(k+1),产生频繁(k+1)-项集的集合L(k+1)。

(6)若L≠Ф,则k=k+1,跳往步骤(4),否则往下执行。

(7)根据最小置信度,由频繁项集产生强关联规则,程序结束。

设置好最小支持度阈值和最小置信度阈值之后,Apriori算法开始执行,扫描数据集首先产生频繁1项集,将得到的频繁1项集进行连接操作,再次扫描数据集D得到满足最小支持度阈值的频繁2项集,以此类推直到频繁k项集[7]。

算法流程图如图1所示。

3   数据来源与处理(Data source and processing)

3.1   数据来源与特点

本文的数据来源是安徽省某三甲医院2019年体检中心的体检数据,一共筛选2,345 份体检数据报告,采集的指标主要包含基本人物信息(性别、年龄等)以及相关的检查指标属性特征。

医疗数据的数据类型繁多。医疗数据包括纯数据、信号、CT、B超等医疗影像数据,文本类型有患者记录的身份、症状描述、检测和文本表示的诊断等多种模式,其数字类型有些是连续型数据,有些是离散型数据[8],存在缺失值、异常值和重复值。收集到的医疗数据往往是不完整的,病人由于隐私不愿意透露或者由于人工记录的偏差、数据的不清晰表达、记录本身的不确定性等都造成了医疗信息的不完整性,且医院每天收集的大量数据可能会包含重复、无关紧要的数据[9]。数据中涉及个人的信息,如姓名、住址、身份证信息等,需要对隐私性、敏感性信息进行过滤。

3.2   数据预处理

数据预处理是进行数据挖掘必不可少的关键一步,目的是让数据适应模型,匹配模型的需求。数据预处理分为四个部分:数据清洗、数据集成、数据变换和数据归约[10]。

医疗原始信息包含体检人员的基本信息表和体检信息表,其中基本信息表包含姓名、住址、身份证号等一些敏感信息,这些涉及个人隐私的信息,需要进行脱敏处理;体检信息表包括血压、血脂、血糖等疾病情况,这些数据需要整理进行挖掘。数据清洗包括缺失值和异常值的处理。对于缺失值的处理,咨询相关医护人员或者查询相关病例记录进行空缺值填充,对于查询不到的缺失值用均值填补,异常值直接删除。数据集成是将多个数据源放在统一的仓库中,本文重点研究的是中老年人體检状况,筛选出40岁及以上的群体,针对其性别、年龄、高血压、高血脂、高血糖等检验指标信息之间的相关联性,剔除那些与研究不相关的属性记录,通过数据集成将相关表中需要研究的属性信息集成到一个表中,将数据类型和数据单位进行统一化处理。数据变换是对数据进行规范化处理,本文中主要是数据离散化,进行关联分析。首先属性项不能是数值型的,像年龄、胆固醇水平等都是连续数值型数据类型,不能进行数据挖掘,将数据格式转换成英文或者数字化可以提高算法的运算效率,所以本文通过一定的标准把现有的文字数据格式进行英文字母、数字化或布尔值转换处理。这样做也是为了用关联规则更好地挖掘中老年群体病症之间的关系,满足数据挖掘的要求,比如年龄可以划分为两个年龄段:[40,65)、[65,max),那么每个人的年龄就分别对应于相应的年龄段了,数值型数据变成离散化,其他几列连续数值型也是采用类似的方法离散化[11]。

因此,本文结合Apriori算法和医疗数据特点,查阅相关医学资料,对数据进行适当的离散化处理,将数据格式转换成事务性库,具体如表1所示。

得到事务项映射表之后,我们就可以利用该表得到具体需要挖掘的事务数据库D。扫描关系数据库中的数据表,对于每次扫描到的属性值,根据已经定好的事务项参照表,将该属性值所对应的具体编号写入事务表中,如表2所示。

数据的预处理阶段已经完成,接下来用Apriori算法挖掘的事务数据库来进行关联规则的分析。

4   应用与实现(Application and implementation)

运用Python软件进行关联规则挖掘,设置的最小支持度为0.03,置信度为0.80,由此挖掘得到以下有意义的规则和相关参数,如表3所示。

本文给出了置信度为前26的排名。通过以上规则,在中老年人群中,我们可以得出以下结论:

(1)吸烟、体重超重,还经常喝酒的以中老年男性群体为主。

(2)针对老年人群,心电图异常、有脂肪肝,并且尿常规异常的,一般都体重超重。

(3)体重超重、心电图异常并且胆固醇较高的中老年女性居多。

(4)年龄在65岁以上的老年人中,血糖较高的人群体重一般超重。

(5)心电图异常、尿常规异常、有脂肪肝并且甘油三酯偏高的人群超重。

(6)中老年男性中,有脂肪肝和高血压的体重一般偏重。

针对老年人群,在大多数人的认知里,“三高”等一系列慢性病似乎已经成为这个年龄段的代表符号。从本论文的研究结果可以看出,在中老年人这一群体中,随着年龄的增加、生活方式的改变、基础代谢率的下降,由于缺乏运动、社交增多以及其他不良的饮食习惯等原因,使得肥胖的发生率增加,偏重的体质大概率会伴随高血脂和高血压等一系列不良后果,给中老年人的生活质量带来极大的影响。为了有效地避免这些病症,引导中老年人群建立健康的生活方式,通过合理的饮食、科学的营养搭配、适当的锻炼、良好的习

惯、保持身心愉悦,来维持合理的体重,有效地避免体重过高带来的一些病症,让中老年人群有一个健康的晚年生活。另有研究发现,在中老年人群中,吸烟并体重超重还经常喝酒的大部分都是男性,男性成为吸烟最大的群体。吸烟带来的危害与超重伴随的病症,会对老年生活带来极大的影响,戒烟戒酒有利于健康的生活[12-13]。

5   结论(Conclusion)

本文利用中老年人群的体检报告信息,使用数据挖掘中的关联分析Apriori算法挖掘体检报告中的各个生理指标之间的相关性,分析了疾病与疾病之间的潜在联系 ,这样可以在医疗大数据中发现潜藏的信息并且能够得出关联规则的可信度,为医生诊断病情提供辅助和参考,避免因医生的疏忽而产生误诊,也给患者提供了自身的病情预警,做到早发现、早诊断、早治疗[14],同时也证明了利用关联规则Apriori算法对医疗大数据进行数据挖掘所得出的规则有重要的参考价值。

参考文献(References)

[1] 闫茜.海量医疗数据挖掘平台的研究与设计[D].武汉:武汉理工大学,2014.

[2] 杨余垒.改进的关联规则算法在慢性病数据挖掘中的研究[D].浙江:浙江理工大学,2017.

[3] 赵龙.基于多维关联规则挖掘算法的应用研究[D].浙江:中国计量大学,2017.

[4] 吕石山.基于Apriori关联规则算法的股票操纵行为识别研究[D].兰州:兰州大学,2020.

[5] AGRAWAL R, IMIELINSKI T, SWAMI A, et al. Mining association rules between sets of items in large databases[J]. ACM SIGMOD Record, 1993,22(2):207-216.

[6] CHARANJEET K. Association rule mining using apriori algorithm: A survey[J]. International Journal of Advanced Research in Computer Engineering & Technology, 2013, 2(6):2081-2084.

[7] 孫杏.基于关联算法的人体检测数据的处理与分析[D].西安:西安科技大学,2019.

[8] 王宁.基于Hadoop平台的海量医疗数据挖掘算法的研究与实现[D].北京:北京邮电大学,2014.

[9] 尤婷婷.健康大数据预处理技术及其应用[D].四川:电子科技大学,2017.

[10] 张云洋.面向医疗质量的病案首页数据关联规则挖掘[D].天津:天津大学,2009.

[11] 王越,桂袁义.基于关联分析的数据挖掘在体检CRM中的应用[J].重庆理工大学学报(自然科学版),2010,24(03):36-42.

[12] 贺媛,曾强,赵小兰.中国成人肥胖、中心性肥胖与高血压和糖尿病的相关性研究[J].解放军医学杂志,2015,40(10):803-808.

[13] 张莹,焦怡琳,陆凯,等.中国成年人超重肥胖影响因素meta分析[J].中国公共卫生,2015,31(02):232-235.

[14] 李强,陈东涛,罗先录.关联规则算法在医疗大数据中的应用探索[J].软件工程,2019,22(01):12-15.

作者简介:

郭慧敏(1995-),女,硕士生.研究领域:数据分析与挖掘.

作者:郭慧敏

上一篇:污水处理厂运营管理论文下一篇:国防教育下素质教育论文