数据挖掘技术分析论文

2022-04-21

【摘要】目的:通过对脂肪肝文献处方进行数据挖掘,总结分析近年来有关脂肪肝治疗文献中山楂的用药规律。今天小编为大家推荐《数据挖掘技术分析论文(精选3篇)》,希望对大家有所帮助。

数据挖掘技术分析论文 篇1:

基于数据挖掘技术分析全国中医妇科名家诊治不孕症的共性用药规律

摘要 目的:基于数据挖掘技术分析全国中医妇科名家诊治不孕症的共性用药规律。方法:采用Excel电子软件将《妇科名家诊治不孕症临证经验》一书中所收录的95位妇科名家治疗不孕症的方剂录入数据库,借助SPSS 25.0、SPSS Modeler 18.0统计软件进行频数分析、因子分析、聚类分析、关联规则分析。结果:共录入方剂453首,分類中以活血化瘀类最多,单味药物中使用频次最高的为当归;因子分析提取出有效公因子9个,聚类分析得到药组14个,关联规则分析得出规则23条。结论:妇科名家治疗不孕多以活血化瘀、补肾疏肝、燥湿化痰、清热解毒为主要方法,活血常用桃仁-红花、败酱草-大血藤、蒲黄-五灵脂为药对,补肾常以左归丸为底方加减,疏肝则用开郁种玉汤为基底,后辈医家临症遣方用药可以此为参考,灵活应用于临床。

关键词 数据挖掘;不孕症;用药规律;聚类分析;频数分析;因子分析;关联规则;名老中医药专家经验

不孕症是指妇女婚后未避孕,有正常性生活,夫妇同居1年而未孕的病症[1]。据相关文献统计,目前不孕症发病率为8%~12%[2]。随着社会发展的需要,“二孩政策”的开放,为延缓社会老龄化、增加出生率,不孕症已经成为了公共卫生领域的研究重点。中医对不孕症的记载可追溯至《黄帝内经》,所谓“督脉者……此生病……其女子不孕”。中医古籍中该病有“全不产”“绝嗣”“断绪”之称。不孕症的病因病机错综复杂,当代中医名家在临床中积累了丰富的经验,但治法方药却各有特色,由韩延华、罗颂平主编的《妇科名家诊治不孕症临证经验》一书,汇集了全国25个省份,95位妇科名家,包含国医大师、全国第一批至第六批名老中医药专家学术经验继承工作指导老师,重点学科学术带头人、全国中医妇科流派的代表性人物及主要传承人治疗不孕症的经验,充分展现出地域性差异和个体化治疗不孕症的特色。我们以此为基础,运用数据挖掘技术,采用频数分析、因子分析、聚类分析、关联规则等方法对书中大量的医案数据进行分析,旨在挖掘出名老中医治疗不孕的用药规律,提炼出不孕症治疗的核心药物,为中医药治疗不孕症提供切实可参考的经验。

1 资料与方法

1.1 文献来源 2019年由韩延华、罗颂平主编的人民卫生出版社出版的《妇科名家诊治不孕症临证经验》[3]。

1.2 检索策略 检索《妇科名家诊治不孕症临证经验》一书所涉及的全部方剂。

1.3 纳入标准 1)所选病案的医家均为国家中医药管理局认可的全国名老中医药专家、国医大师、中医妇科流派代表性传承人及主要传承人。2)方药组成、药物剂量完备。3)首选辨证分型清晰的方剂。4)以中药内服方剂为主。

1.4 排除标准 1)仅列方剂名称,未详述药物组成与剂量的方剂。2)重复录入的医案和(或)方剂。3)以西医治疗或针灸等治疗为主的医案。4)病案主治症状复杂,不具备代表性的方剂。5)非水煎剂的方剂如外敷等。

1.5 数据的规范与数据库的建立

1.5.1 数据库的建立 采用Excel 2010软件建立数据库,以二分类变量形式录入,频数分析、聚类分析、因子分析应用SPSS25.0软件实现,关联规则分析使用应用SPSS Modeler 18.0实现。

1.5.2 数据库的规范 按照《中药学》[4]、《中药大辞典》[5]标明的中药名称进行规范化处理,如“熟地”改为“熟地黄”“仙灵脾”改为“淫羊藿”;对于不同炮制方法的同一种药物,如不影响药物性味归经则统一为一种,防止分析结果失真。

1.6 数据分析 频数分析:作为最简单医学统计方法之一,通常用来对医学数据进行初步分析,得出量化依据,提炼高频信息。在本研究中鉴于涉及的方剂、药物众多,应用频数分析先初步筛选出高频药物,为后续系统深入分析用药规律奠定基础。

从《妇科名家诊治不孕症临证经验》一书中共录入方剂453首,涉及中药333味,总频次为5 438。对所有中药进行频数分析后将频次≥20的中药进行降序排列,得到高频中药,并统计累计百分比,即药物出现频次占总频次的百分比。

因子分析:因子分析是为了从大量数据中,提取可测变量间的共同因素,将大量变量简化为具有代表性的少数潜在因子,利用潜在因子来发现数据的本质规律,是数据挖掘技术中典型的降维分析方法。本研究选取主成分分析算法,在高频中药中寻找其潜在规律,将相关联比较密切的中药归在同一类中,每一类中药就成为一个公因子,以最具代表性的公因子来反映不孕症用药的共性规律[6]。

对出现频次≥20,累计百分比前80%的67味药物进行因子分析,结果显示巴特利特球形度检验:P=0<0.001,存在内部因子结构,KMO值为0.687,适合因子分析,特征根大于1时可提取出公因子23个,依据专业知识提取载荷系数绝对值大于0.4的有效药物组合9个。

聚类分析:聚类分析的基本思想是对变量间的相似程度进行研究,通过计算相似性程度将相似程度大的变量聚合为一类,分类后的变量组内相似性最大,组间相似性最小,是分类学基本统计方法之一。聚类分析树状图直观表达了变量间的相似性大小,距离越大相似性越低,本研究借助聚类分析寻找在高频中药中存在密切联系的药物组合体,进一步分析不孕症用药规律[7]。

对出现频次≥20,累计百分比前80%的67味药物进行聚类分析,选取系统聚类组间连接法,词篇矩阵选择Ochiai系数,得出聚类谱系图。药物间横轴距离越近即表示关系越紧密。

关联规则:关联规则是寻找变量之间的联系规律和特征性结构的统计学方法,本研究选取最常用的Apriori算法,在大量方剂数据中寻找频繁项集,依据频繁项集计算提取相应关联规则,其优点在于对大量无效规则的筛选,执行效率较高。本研究借助关联规则分析通过支持度、置信度、提升度等指标,找到药物间的最优匹配,最终得到不孕症治疗的核心药对,支持度即指X和Y 2种药物的交集在总体中出现的概率。置信度就是指出现了药物X的方剂中,药物Y也同时出现的概率。提升度为置信度与支持度的比值,提升度越高则关联规则可信度越好,提升度小于1的规则应予剔除[8]。

采用SPSS Modeler 18.0进行关联规则分析,并建立关联规则网络图,对高频中药进行可视化探索,线条粗细表示关联度的强弱。见图2。线条越粗两药关联度越强,如木香-砂仁、墨旱莲-何首乌、蒲黄-五灵脂等,鉴于可视化探索信息丟失率较高,为分析出核心药对,建立Apriori关联分析模型,规定最低支持度5%,最小规则置信度70%,最大前项数1,剔除提升度小于1的相对无效规则,分析出核心药对组合,并依据置信度由高到低排列。

因子分析、聚类分析、关联规则分析三者分别从降维、分类、内部结构规则探索3个方面挖掘数据的隐含规律,三者结合能够最大效率地减少统计分析中的信息损失,最全面地得到方剂数据中的规律。

2 结果

2.1 药物使用频率 67味高频药物累计百分比可达79.90%,最高频次药物为当归273次,根据药物功效可分为,活血化瘀药、补阳药、清热药、补气药、理气药、补阴药、补血药、清利水渗湿药、温里药、解表药、祛风湿药、固涩药、攻毒杀虫止痒药、化痰止咳平喘药、止血药、化湿药。其中活血化瘀药最多,共16味,累计百分比16.1%;补阳药居次,共9味,累计百分比12.17%;理气药7味,累计百分比6.26%,清热药6味,累计百分比6.00%;补气药5味,累计百分比9.91%;补阴药5味,累计百分比3.97%;补血药5味,累计百分比8.70%。见表1。

2.2 高频药物因子 F1有中药7种,F2有8种,F3,F4,F6均为5种。药物分布情况见表2。

2.3 高频药物聚类 由此可提取核心药物组合14组,A1:三棱、莪术;A2:皂角刺、穿山甲;A3:桃仁、红花;A4:丹参、赤芍;A5:败酱草、大血藤;A6:延胡索、川楝子;A7:五灵脂、蒲黄;A8:女贞子、墨旱莲;A9:淫羊藿、仙茅、巴戟天;A10:续断、桑寄生;A11:白术、党参、黄芪;A12:菟丝子、熟地黄、枸杞子、山药、山茱萸;A13:当归、川芎、白芍、香附、甘草、茯苓;A14:陈皮、半夏、苍术。见图1。

2.4 关联规则 得出高频药物关联规则25条,其中提升度较高的依次为五灵脂-蒲黄、莪术-三棱、女贞子-墨旱莲、续断-桑寄生、茯苓-半夏、菟丝子-覆盆子、菟丝子-枸杞子、菟丝子-杜仲;置信度较高的为菟丝子-覆盆子、当归-川芎、续断-桑寄生、当归-红花、菟丝子-枸杞子、菟丝子-杜仲、当归-熟地黄、当归-白芍等。见图2和表3。

3 讨论

不孕症是妇科领域的疑难病症,是造成家庭不稳定的重要因素,全国各地妇科名家对于不孕症的诊治各有特色,因而在大量方剂数据中寻找名家的共性用药规律对指导后辈医家的临床用药大有裨益。女性不孕的主要病机是脏腑功能失常,冲任气血失调,胞宫不能摄精成孕。肾气盛,冲任二脉通盛,两精适时相搏,方可摄精成孕。本研究经频数分析后,发现妇科名家诊治不孕症的方剂中以活血化瘀药最多,《诸病源候论》有云:“积气结搏于子脏……阴阳血气不调和,故病结积而无子。”女子性本善怀多郁,又求子心切,肝气郁滞,瘀结冲任;或感染外邪直中胞中,蕴结血分,冲任不通,瘀阻胞宫,血瘀是女性不孕症发展中的重要病理产物。姜俊雨[9]认为活血化瘀药,能够推动气血经络流畅运行,调和气血,起到疏通输卵管,恢复其摄精拾卵之功能,促进卵泡发育、排出的作用。此外方剂中大量出现补益类药物,补阳、补阴、补气、补血皆有,体现出阴阳并行,气血同治的用药特点,肾乃先天之本,若女子肾精不足,精不生血,则精枯血乏,无法妊养胞胎,应用补益类药物可使气血调和,阴平阳秘,为胞胎的生长发育提供基础。与此同时,佐以理气药物使诸药补而不滞,更能纾解肝气之郁结,相辅相成。而清热类药物则具有较好的消炎功效,能够消除输卵管炎症积液,畅通输卵管,恢复其摄精拾卵的生理功能。

本研究中,因子分析和聚类分析虽然分别采取了降维和分类的分析方法,但其结果却有交叉相似之处,例如F1-A12、F2-A1+A14、F3-A13、F4-A9、F5-A7、F7-A5等,对二者结合分析更能全面深入地挖掘出数据隐含的共性规律,使得本研究结果更具参考价值。F1-A12组均为补益药,功效以补益肝肾,填精益髓为主,可谓阴阳并行,气血皆益,F1组成与左归丸药物组成极为相似,于莎等[10]研究发现左归丸能够提高DOR不孕患者获得有效胚胎的周期比率,进而提高辅助生殖技术的成功率;F2组中三棱、莪术,破血行气消积,聚类分析A1组将此二味单独分类,恰为龙江韩氏妇科常用药对[11],常用于治疗输卵管炎性不孕。随着我国社会经济高速发展,居民物质生活愈加丰富,部分女性常贪嘴好甜,恣食膏粱厚味,形体肥胖,痰湿内蕴,痰浊阻滞冲任,阻碍胞宫摄精受孕,《丹溪》云:“肥盛妇人,禀受甚厚……不能成孕……湿痰闭塞子宫故也。”提出痰湿了不孕的机制,F2组中半夏、陈皮、苍术、枳壳相须为用,共奏燥湿化痰,理气宽中之功;白术、茯苓补气健脾,以填后天生化之源,通补兼施,化痰消浊,恰合痰湿不孕之治法;肝主情志,须其气和志达,方能协调平衡全身气机升降出入,而女子以肝为先天,以血为用,《笔花医镜》提到:“肝气唯妇女易动焉,……一有逆意,即牢结胸中……郁久而成病。”肝为冲任所系,若肝气失调,木郁犯脾伐土,气血顿失生化之源,冲任虚损,则妊养无力。F3-A13组以疏肝理气,活血调经为主,其中当归补血养肝、和血调经,香附疏肝解郁,理气调经,川芎、白芍活血行气、柔肝和营,配当归则滋补阴血,补而不腻。F3-A13组的药物组成,与傅山治肝郁不孕症之“开郁种玉汤”极为相似,丛慧芳等[12]研究发现开郁种玉汤能够有效改善肝郁肾虚型证候积分、焦虑自评量表积分,提高妊娠率。

F4-A9组以补阳药为主,当中淫羊藿、仙茅合为二仙汤,与巴戟天相配,能起温肾阳,益肾精,调冲任之效,墨旱莲、白芍则兼顾肝肾,二仙汤能够通过PI3K-AKT信号通路、MAPK信号通路、TNF信号通路等对卵巢功能产生影响[13]。F5-A7组蒲黄、五灵脂组成妇科常用方剂失笑散,能入肝经血分,治疗瘀停胞宫脉道阻滞之症;F6组以滋补肝肾,补气健脾为主,聚类分析将其中的续断、桑寄生提炼为核心药对组合A10,能补肝肾、强筋骨、安胎元。A11则由白术、党参、黄芪三味组成,具补气升阳、生津养血安胎之效,使气血化源充足,奠定胞宫妊养所需的良好环境;输卵管炎性不孕以瘀滞为主,兼夹湿热之邪,应治以活血行气,化瘀通络之品,而F7-A5组中败酱草、大血藤能清热解毒,活血祛瘀,与牛膝相伍能获补肝肾,强筋骨,逐瘀通经之效,能够疏解子管之瘀滞,复其摄精拾卵之能。研究认为大血藤的抗炎机制与TNF信号通路、NOD样受体信号通路、凋亡、MAPK信号通路、Toll样受体信号通路及核因子κB信号通路等密切相关[14];F8组中郁金活血止痛、行气解郁,川楝子疏肝泄热、行气止痛,王不留行、路路通活血通经,体现出疏肝通经活血之法。

此外,因子分析和聚类分析还分别得出了一些核心药对组合,如F9牡丹皮、女贞子,能清热凉血、消炎镇痛、滋补肝肾;A2:皂角刺、穿山甲,活血消癥、消肿排脓;A3:桃仁、红花,活血调经、祛瘀止痛,二味常相须而用,治妇科血瘀诸症;A4:丹参、赤芍活血祛瘀、凉血消痛;A6:延胡索、川楝子行气活血止痛;A8:女贞子、墨旱莲,补益肝肾,凉血止血,临床可以考虑根据其藥效灵活加减应用。

在关联规则结果中,五灵脂-蒲黄、莪术-三棱、女贞子-墨旱莲、续断-桑寄生、茯苓-半夏均为前文因子及聚类分析已述之药对,不再赘述,3种数据挖掘算法得以相互印证及补充,增强了本研究结果的可参考性。另外在关联规则网络连接图中,可以看出木香-砂仁组合,该组合行气止痛为主,常用于输卵管炎性不孕伴发的腹痛腹胀等症。而墨旱莲-何首乌则以滋补肝肾为主。在高频药物关联规则25条中,与当归相关的规则最多,可达13条之多,结合频数分析,我们发现当归在不孕症的诊治中具有不可或缺的地位,当归素有“妇科圣药“之名,现代药理研究表明,当归能增强人体免疫力,调节子宫平滑肌收缩,促进造血[15],当归酚性油对细菌具有抑制作用,能够抑制慢性炎症和组织水肿。根据其提升度大小,我们将与当归相关的药物进行重要性排序,由高至低的前5味药物依次为川芎、红花、熟地黄、白芍、枸杞子,提升度越高则妇科名家使用该药物组合治疗不孕症的概率越高,可信度越大。其中当归、川芎、芍药、熟地黄四味即为四物汤,养血调经而促孕。Zhou等[16]通过实验发现四物汤能够显著改善POF小鼠的雌激素水平、卵泡数量、抗氧化防御和微血管形成,显著激活Nrf2/HO-1和STAT3/HIF-1alpha/VEGF信号通路以促进血管生成,改善妊娠结局。与菟丝子相关的规则居次共5条,重要性排序依次为,覆盆子、枸杞子、杜仲、紫石英、淫羊藿。针对排卵障碍性不孕,菟丝子是公认的能够改善卵巢功能及女性激素水平的重要中药,孙向明等[17]发现菟丝子可能具有与己烯雌酚相似的拟雌激素作用机制,能够有效的影响体内生殖激素的水平。Gao等[18]通过检测菟丝子总黄酮对基质金属蛋白酶9及其相关通路上关键因子的表达,发现它是通过激活Notch/AKT/MAPK信号通路发挥作用的,能够借此治疗卵巢内分泌和生殖障碍相关疾病。雷娜等[19]发现,杜仲叶总黄酮可有效调节多囊卵巢综合征大鼠血清中雌孕激素水平,并达到良好的治疗效果。李锦英等[20]经网络药理学研究认为菟丝子-枸杞子药对的多种活性成分可能通过PI3K/AKT信号通路、MAPK等多条通路作用于AKT1、TP53等靶点改善卵巢功能。

采用数据挖掘方法对全国中医妇科名家的方剂进行分析,有助于从庞博纷杂的文献资料中找到当代名家遣方用药的共性规律,能够为科研提供可靠的理论依据和更为清晰的研究方向,为后辈医生诊治不孕症提供指导依据。本研究运用频数分析、因子分析、聚类分析、关联规则分析对95位妇科名家,453首方剂进行分析,并得出其共性核心药物组合,发现妇科名家治疗不孕多以活血化瘀、补肾疏肝、燥湿化痰、清热解毒为主要方法,用药中以当归、白芍、菟丝子最为常见,后辈医家临症可以此为参考,灵活应用于临床。

参考文献

[1]谢幸.妇产科学[M].北京:人民卫生出版社,2013:369.

[2]Vander Borght M,Wyns C.Fertility and infertility:Definition and epidemiology[J].Clin Biochem,2018,62:2-10.

[3]韩延华,罗颂平.妇科名家诊治不孕症临证经验[M].北京:人民卫生出版社,2019:23-615.

[4]高学敏.中药学[M].上海:上海科学技术出版社,2011:341-345.

[5]南京中医药大学.中药大辞典[M].上海:上海科学技术出版社,2006:1-194.

[6]于林童,曲文白,余新波,等.数据挖掘方法在名老中医用药规律研究中的应用现状[J].中医杂志,2017,58(10):886-888,900.

[7]隋明爽,崔雷.基于SPSS的共现聚类分析参数选择的实例研究[J].中华医学图书情报杂志,2016,25(1):52-56.

[8]趙艳青,李青松,项敏泓,等.中医药数据挖掘中常见问题的思考与策略——以中医药术语及用药规律总结为例[J].中华中医药杂志,2018,33(4):1220-1225.

[9]姜俊雨.活血化瘀法治疗不孕症的研究[J].中国社区医师,2019,35(8):113-114.

[10]于莎,李江慧,龙慧,等.左归丸加减对卵巢储备功能降低肾阴虚证不孕患者体外受精-胚胎移植治疗的影响[J].中国中医药信息杂志,2019,26(9):29-33.

[11]韩延华.韩氏女科[M].北京:人民军医出版社,2015:287.

[12]丛慧芳,高强,栾毅峰,等.肝郁肾虚型体外受精-胚胎移植患者应用开郁种玉汤妊娠结局临床观察[J].辽宁中医药大学学报,2020,22(10):5-8.

[13]李敏,郭淼,孙建华,等.二仙汤治疗POI的网络药理学分析[J/OL].世界中医药:1-6[2021-08-24].http://kns.cnki.net/kcms/detail/11.5529.R.20210527.1259.002.html.

[14]徐锋,黄旭龙,张梅,等.基于网络药理学的大血藤抗炎作用机制研究[J].中华中医药学刊,2020,38(8):249-253,29.

[15]黄红泓,覃日宏,柳贤福.中药当归的化学成分分析与药理作用探究[J].世界最新医学信息文摘(连续型电子期刊),2019,19(58):127,153.

[16]Zhou F,Song Y,Liu X,et al.Si-Wu-Tang facilitates ovarian function through improving ovarian microenvironment and angiogenesis in a mouse model of premature ovarian failure[J].J Ethnopharmacol,2021,280:114431.

[17]孙向明,宋辉,赵丽珠,等.菟丝子拟雌激素作用体内直接作用物质的发现[J].药学学报,2021,56(7):1826-1831.

[18]Gao F,Zhou C,Qiu W,et al.Total flavonoids from Semen Cuscutae target MMP9 and promote invasion of EVT cells via Notch/AKT/MAPK signaling pathways[J].Sci Rep,2018,26,8(1):17342.

[19]雷娜,任凤兰,王娜梅.杜仲总黄酮对多囊卵巢综合征模型大鼠相关激素水平的干预作用[J].中医学报,2020,35(8):1727-1731.

[20]李锦英,张兆萍,叶金飞,等.基于网络药理学的菟丝子-枸杞子药对治疗卵巢早衰的作用机制研究[J].中国药房,2020,31(18):2202-2209.

(2020-07-31收稿 本文编辑:张雄杰)

作者:韩延华 冯聪 齐娜

数据挖掘技术分析论文 篇2:

基于数据挖掘技术分析山楂在脂肪肝治疗中的用药规律

【摘 要】 目的:通过对脂肪肝文献处方进行数据挖掘,总结分析近年来有关脂肪肝治疗文献中山楂的用药规律。方法:从中国知网、万方数据库1990年1月至2020年1月的文献中摘录相关处方,采用Microsoft Office Excel 2013对收集到的处方进行数据库建立,将数据预处理后运用软件Office Excel进行频数统计,通过R软件及TCMISS V2.5实现关联规则及熵聚类分析。结果:共纳入文献145篇,涉及处方184个,频次统计中山楂排在第一位,用量点依次为15 g>30 g>10 g>20 g;根据关联规则显示:山楂最常见的配伍药为泽泻、柴胡、丹参等;基于熵聚类分析显示:山楂潜在配对药是泽兰、神曲、香附等。结论:山楂是脂肪肝疾病治疗中用药频次极高的一味药,在常用剂量范围内疗效显著且无明显毒副作用。

【关键词】 山楂;脂肪肝;数据挖掘

Analysis of The Rule of Hawthorn in The Treatment of Fatty Liver Disease Based on Data Mining

LIU Bing1 L Guanhua2*

1.Liaoning University of Traditional Chinese Medicine,Shenyang 110032,China;

2.Affiliated Hospital of Liaoning University of Traditional Chinese Medicine,Shenyang 110034,China

山楂又名“山里紅”“赤枣子”“红果”,为蔷薇科植物山里红或山楂的干燥成熟果实,味酸甘,性微温,归脾、胃、肝经[1],《本草纲目》曰其:“化饮食,消肉积,癥瘕,痰饮痞满吞酸,滞血胀痛。”《新修本草》曰其:“汁服主水痢,汁头及洗身上疮痒。”《医学衷中参西录》亦有云:“山楂,若以甘药佐之,化瘀血而不伤新血,开郁气而不伤正气,其性尤和平也。”可见山楂在疾病的治疗中应用较为广泛。脂肪肝的病因病机主要为饮食情志不当、劳逸过度等致脾失健运,肝失疏泄,继而引起水湿集聚、痰浊内生、气郁血瘀而成[2],简言之其为痰湿瘀互结于内的本虚标实之症。山楂因其功擅消积散瘀化滞,为临床常用治疗脂肪肝之要药,文章重点分析山楂在脂肪肝治疗中的用药规律。

1 资料与方法

1.1 资料来源及文献检索方式 以“脂肪肝”and“中医”or“中药”、“经验”等为关键词制定检索式,对中国知网、万方数据库1990年1月至2020年1月的文献进行全面检索,共筛选相关文献151篇,根据纳排标准严格过滤后共纳入研究文献145篇,涉及处方共184首。

1.2 纳入标准 以处方的主治功效作为依据,凡方源、组成、用法及主治功效完整且治疗前后疗效指标(血脂、肝功转氨酶、体重指数、腹部彩超或腹部CT等)明确者,均列入收录范围。

1.3 排除标准 重复文献;临床治疗重复出现相同处方的文献;临床诊断为脂肪肝但有其他严重合并病的文献。

1.4 统计学方法 采用Microsoft Office Excel 2013对收集到的处方进行数据库建立,将数据预处理后运用软件Office Excel进行频数统计,通过R软件中的arules程序包执行apriori算法实现关联规则分析,并利用arulesViz扩展包进行可视化操作,通过TCMISS V2.5实现复杂系统熵聚类的分析。

2 结果

2.1 药物频次及其临床用量点 184首处方中,山楂用药频次149次,泽泻用药121次,柴胡用药103次,丹参用药98次,其中山楂排列在第一位,如图1所示。山楂的用量点统计结果如图2所示。

2.2 药物关联 基于关联规则,得出山楂治疗脂肪肝的用药模式网络展示图(支持度39,置信度0.8),如图3所示。

2.3 用药模式 基于关联规则,分析治疗脂肪肝的用药模式,见表1。

2.4 药对 基于关联规则,得出治疗脂肪肝时常用的山楂药对,见表2。

2.5 潜在配对规律 基于熵聚类发现的山楂潜在配对规律(支持度为0.8,置信度0.2),见表3。

3 讨论

山楂为药食同源类植物,临床常用有生山楂、炒山楂、焦山楂、山楂炭四种类型(本文为方便统计,统一将其归为山楂),其中生山楂味酸,擅活血化瘀消食,临床常取单味生山楂代茶饮用治疗高血脂,效果明显。炒山楂与焦山楂酸味减弱,缓和对胃的刺激,功偏健脾化积与消食止泻,山楂炭味微苦涩,有收涩之功,擅于止泻、止血,可用于治疗脾虚泄泻、胃肠出血等疾病[3]。山楂炮制后调脂作用存在差異,其中以生山楂效果最优[4]。

现代药理学研究[5]显示,山楂含有丰富的黄酮类、黄烷及其聚合物类、三萜类和有机酸类等多种具有药物活性的化学成分,具有调节血脂、保肝、降压、降糖、助消化、强心、抗动脉粥样硬化、抑制脑细胞凋亡、抗氧化、抗肿瘤、抗菌之功效[6-7]。实验[8-11]表明山楂在降脂方面发挥作用的有效成分主要有黄酮类化合物中的金丝桃苷,有机酸类及三萜类中的熊果酸,以及山楂果胶五糖和植物甾醇等化合物,多种物质协同作用,通过调节肝脏低密度脂蛋白受体转录水平抑制脂质代谢紊乱以及对肝细胞微粒体及小肠黏膜的胆固醇合成的限速酶的抑制、升高 HDL 百分比值和 SOD活性等达到降脂保肝的作用。

本次数据分析显示,山楂常见用量点为10 g,15 g,20 g,30 g,其中10 g出现24次,15 g出现63次,20 g出现15次,30 g出现35次,说明高效用量点为15 g和30 g,在常用剂量范围内,出现量效关系非线性相关的现象,因而具有一定的临床研究及指导意义。值得注意的是,研究[12-14]显示脂肪肝患者同时患有糖尿病的比率显著高于非脂肪肝的患者,因两者有相似的危险因素及发病机制,在临床中两者合并症较多且互为危险因素,故进行脂肪肝综合防治时,在控制体重的同时,应与糖尿病防治并行。虽有研究[15-16]表明山楂提取物有一定降糖作用,但因其血糖负荷高达22%,整果使用时仍有引起血糖升高的风险,因此在临床应用时,应根据患者病情辨证用药,可酌情与黄连、葛根、麦冬等有降糖作用的中药[17]配伍运用,并加强脂肪肝患者的血糖监测,至于山楂在治疗脂肪肝合并糖尿病患者时的最佳用量,还需进一步的深入研究。

关联规则发现,山楂配伍频次最高的前五对依次为:山楂、泽泻;山楂、柴胡;山楂、丹参;山楂、郁金;山楂、茯苓。卢秉久教授在治疗脂肪肝时,善用山楂与泽泻配伍,并取得确切疗效,其常用剂量为各20 g。二药合用能明显抑制脂质合成,促进脂质排泄,从而达到降血脂的目的[18]。复杂系统熵聚类发现,山楂潜在配对高频次前三位为:山楂、泽兰;山楂、神曲;山楂、香附。其中山楂与神曲为“焦三仙”中的两味药。李炳照等[19]自拟中药方“黄金汤”治疗肝胆疾病,取得显著疗效,其中焦三仙中含有各种消化酶、蛋白质、大量维生素B和C,不仅具有促进食欲之功,也有益于肝脏代谢。汪圣等[20]运用黄连降脂合剂联合焦三仙治疗高脂血症取得良好疗效。

耿亚等[21]通过对《中华人民共和国卫生部药品标准·中药成方制剂》含山楂方剂组方规律的数据分析发现:山楂在中药成方制剂中主要被用于治疗积滞、腹胀、腹泻、感冒等疾病中的食积证、脾虚食积证、中焦气滞证及风邪袭表证等,在被用于治疗脂肪肝的相关症状中出现频次较少。而本次数据分析发现,山楂在脂肪肝疾病的治疗中使用频次高居首位,说明开发其用于治疗脂肪肝疾病的中药成方制剂拥有广阔的前景。

参考文献

[1]中华人民共和国药典委员会.中国药典2010年版(一部)[S].北京:中国医药科技出版社,2010:29.

[2]邓国兴,张一昕.非酒精性脂肪肝中医药研究进展[J].内蒙古中医药,2016,35(14):156-157.

[3]李化,杨滨.山楂的炮制研究[J].中国中药杂志,2004(6):12-15.

[4]聂春霞,何盼,郝艳艳,等.基于~1H-NMR代谢组学的山楂不同炮制品对高脂血症大鼠模型的影响研究[J].中草药,2019,50(10):2362-2370.

[5]吴士杰,李秋津,肖学凤,等.山楂化学成分及药理作用的研究[J].药物评价研究,2010,33(4):316-319.

[6]封若雨,朱新宇,张苗苗.近五年山楂药理作用研究进展[J].中国中医基础医学杂志,2019,25(5):715-718.

[7]楼陆军,罗洁霞,高云.山楂的化学成分和药理作用研究概述[J].中国药业,2014,23(3):92-94.

[8]李贵海,孙敬勇,张希林,等.山楂降血脂有效成分的实验研究[J].中草药,2002(1):52-54.

[9]ZHU R G,LI T P,DONG Y P,et al.Pectin pentasaccharide from hawthorn ( Crataegus pinnatifida Bunge.Var.major ) ameliorates disorders of cholesterol metabolism in high-fat dietfed mice[J].Food Research International,2013,54(1):262-268.

[10]林秋實,陈吉棣.山楂及山楂黄酮预防大鼠脂质代谢紊乱的分子机制研究[J].营养学报,2000(2):131-136.

[11]刘北林,董继生,倪小虎,等.山楂黄酮提取及降血脂研究[J].食品科学,2007(5):324-327.

[12]杨蕊旭,范建高.糖尿病并发脂肪肝:互为因果加速危害[J].肝博士,2018(2):31-32.

[13]杨敏.脂肪肝与高血压病、糖尿病、体质量指数的相关性分析研究[J].中国医药指南,2013(1):527-528.

[14]张业.脂肪肝与高血压病、高血脂症、糖尿病以及体重指数相关性分析[J].泰山医学院学报,2019,40(5):379-381.

[15]朱柳莹,吴忠祥,李苗苗,等.山楂叶总黄酮对糖尿病大鼠血糖、血脂代谢的影响[J].湖北科技学院学报(医学版),2014,28(6):469-471,474.

[16]SHIH C C,LIN C H,LIN Y J,etc.Validation of the antidiabetic and hypolipidemic effects of hawthorn by assessment of gluconeogenesis and lipogenesis related genes and AMPactivated protein kinase phosphorylation[J].Evid Based Complement Alternat Med,2013:597067.

[17]梁梦莹,徐灿坤,郭静.降糖中药临床应用研究进展[J].世界最新医学信息文摘,2018,18(80):94-96.

[18]高红如,卢秉久.卢秉久教授配伍运用山楂与泽泻治疗脂肪肝经验[J].陕西中医药大学学报,2016,39(2):23-24,102.

[19]李炳照,陈延军,王文联,等.黄金汤配合西药治疗小儿急性病毒性黄疸型肝炎100例疗效分析[J].中级医刊,1990(4):58-60.

[20]汪圣,郑琼莉.黄连降脂合剂联合焦三仙治疗高脂血症的疗效观察[J].中西医结合心血管病电子杂志,2018,6(27):160-161.

[21]耿亚,马月香,许海玉,等.《中药成方制剂》含山楂方剂用药规律研究[J].中国中药杂志,2016,41(15):2932-2937.

(收稿日期:2020-06-14 编辑:刘 斌)

基金项目:

作者简介:刘兵(1994-),女,满族,硕士研究生在读,研究方向为中医药治疗消化系统疾病。E-mail:1832446151@qq.com

通信作者:吕冠华(1970-),男,汉族,主任医师、硕士研究生导师,研究方向为中医药治疗消化系统疾病的临床与机制研究。E-mail:809007025@qq.com

作者:刘兵 吕冠华

数据挖掘技术分析论文 篇3:

面向微课移动学习的教学资源平台数据挖掘技术分析

摘  要: 为了解决目前学习平台中微课资源推送不精准、缺少学习路径优化推荐功能等问题,文章在分析微课与移动学习的内涵特征的基础上,重点对数据挖掘技术中的K-means聚类算法和Apriori算法进行分析,并通过数据挖掘技术实现了教学资源平台微课程资源的智能推送。

关键词: 微课; 移动学习; 教学资源平台; 数据挖掘; 智能推送

Key words: micro course; mobile learning; teaching resource platform; data mining; intelligent push

0 引言

現在各种微课学习平台不断推出,但是微课存在诸多有待解决的问题,如资源推送不精准、缺少学习路径优化推荐功能等问题。如何通过平台从大量的资源数据和学习数据中挖掘相关联的信息,从而为学习者提供相应的推荐决策参考,以及提供更优质的服务,是实现当前移动学习教学资源平台建设的难点问题。

1 微课与移动学习的内涵与特征

1.1 微课

“微课”是一种基于信息技术的、以微视频为主(时长尚未有统一标准)的数字化教学资源,它展示了某个学科知识点,表达了一个精练简要的教学过程[1]。站在教师的角度,微课革新传统教学方法,突破传统教学中重复听课难、教学问题针对性弱、教学效率低的困境,使教师备课指向性强,教学效率性高,教学反思有据可依;站在学习者的角度,微课能够精准细化学科知识点,提供个性化学习条件,使学生课前预习、课中学习、课后复习更具主动性与实效性。

1.2 移动学习

移动学习是指计算机技术支持下在移动设备上进行学习的一种学习、探究方式[2]。移动设备作为其基础支持条件,一方面能够呈现学习资源,另一方面能够起到不同角色之间网络交流的纽带作用。移动学习创建了一个具有激励性、和谐性、营养性、可持续发展性的学习生态环境,对学习者自主学习起到很大的促进作用[3]。在移动终端,学习者可以查看学习情况、设置学习进度。基于数据挖掘技术的移动学习终端,学习者还可以获得个性化信息资源的智能推送和学习路径的优化建议,提高学习效果和效率。

2 数据挖掘技术分析

数据挖掘是大数据分析的关键技术,它能够根据指定的问题,利用一种或多种算法,分析不同的数据找到关联的规律,其中,聚类分析、决策树、神经网络、关联规则、回归等数据挖掘技术较为成熟[4]。针对面向微课移动学习的教学资源平台,文章阐述K-means算法和Apriori算法。

2.1 K-means聚类算法

聚类算法是指从样本数据中按照一定的方法或理论划分出不同的类别或者组合的分析方法。

K-Means算法是一种使用均值聚类数据点的聚类算法,其中,K代表类别数,Means代表均值。通过预设类别以及选择初始化的质心,然后将相似的数据点进行划分。K-Means算法的优势在于它的简单和快速,只需要计算点和群中心之间的距离。

假设某资源就是待聚类样本点,目标是需要将样本点聚类成3个类别。对于每个点,计算其距离所有中心点当中离自己最近的那个中心点,可以将这个点定义为其同一簇。经过一次迭代之后,重新计算每个簇类的中心点,然后为每个点重新找到最接近自身的中心点。就这样不断循环,直到前后两次迭代的簇类不再有变化。算法过程如图1所示。

算法的步骤

step1: 选定要聚类的类别数目k(如上例的k=3类),选择k个中心点。

step2: 寻找距离中心点最近的样本点并将其归类,距离同一个中心点最近的所有点表示一个类,这样就算完成一次聚类了。

step3: 判断聚类前后的样本点的类别情况是否相同,如果相同,则算法终止,否则进入step4。

step4: 针对每个类别中的样本点,计算这些样本点的中心点,当做该类的新的中心点,继续step2。

Step5: 直到聚类结果不在变化,得到K个聚类。

k-means算法数据之间距离越小,表示样本A跟B越相似,差异度越小;距离越大,样本A跟B越不相似,差异度越大。根据距离的长短进行聚类成指定的类别数K,为下一步智能推送奠定数据基础。常用的欧式距离公式为:

2.2 Apriori算法

关联分析是一种无监督学习算法,主要是从大量交易数据中查找隐藏的对象关联关系[5-6]。

Apriori算法是用于挖掘关联规则的频繁项集算法。频繁项集是指经常出现在一起的项的集合,关联规则表明这两个项之间可能存在密切关系[7]。假设有4门微课程:微课程0,微课程1,微课程2,微课程3。图4显示了课程之间所有可能的组合,最上面的集合表示不包含任何课程的空集(?),课程集合之间的连线表示可以组合两个或更多个集合以形成更大的集合。目标是找到经常在一起浏览的课程集合,这里使用集合的支持度来度量其出现的频率。

如果某个项集是频繁项集,那么它的所有子集也是频繁的。即假设{0,1}是频繁的,那么{0},{1}也一定是频繁的。如图2所示,图中给出了所有的可能项集,其中非频繁项集用黑色表示。黑色项集{2,3}属于非频繁的,那么项集{0,2,3}、{1,2,3}以及{0,1,2,3}也都是非频繁的。由此可见,如果计算出了{2,3}的支持度,得知它是非频繁项,就可不再需要计算其他非频繁项的支持度。

支持度(Support)可理解为支持的程度[8],假设某平台一共有100000个ID用户,其中30000个用户浏览了对象A,那么对象A的支持度为P(A)=30%(30000/100000)。在所有项集中同时出现A跟B的概率,即P(AB)。假设A跟B一起出现的概率非常大,那么就说明A跟B是相关联的。设A的访问次数是X,B的访问次数是Y,支持度的公式可表示为:

置信度(Confidence)表明了当A出现时,B是否一定会出现,如果出现则其概率为多少,即P(A|B)。假设置信度为100%,则说明A出现时B一定会出现。

3 数据挖掘技术在微课教学资源平台的应用

3.1 平台总体架构设计

在平台总体架构中,教师通过访问用户界面来上传和管理微课资源,教师也还可访问移动终端来获取学生的反馈结果和管理测试等。而学生则通过移动终端观看微课资源,同时,平台利用聚类分析和关联分析中技术,结合XMPP传输协议智能地将类似的微课程资源推送到学习者界面,帮助学习者有效地发现有价值的微课程视频。如果在学习过程中遇到问题,可以在平台中对微课资源进行提问和评价等。教师收到学生提问后,在系统互动平台进行分析解答。这时基础数据库会将微课资源的访问量和评价情况进行分析统计并将结果展示于学习者界面,如图3所示。

3.2 数据挖掘算法在平台中的实现

以某学校现有的微课平台浏览记录为例,用K-means算法进行课程聚类,最后用Python3代码来实现,发现浏览微课最多的人群均集中在年纪为大二的学生。对计算机技术感兴趣的同学一般会对传媒也有兴趣。专业是计算机应用、机械制造、道路桥梁等的浏览者人群大多数为男生。机械制造、道路桥梁、车载危机检修与故障诊断三类微课联系比较密切,原因是该校是一所以轨道交通类为背景的学校,所以学生大多会同时浏览这几类微课。

Apriori算法中的频繁项集是指那些经常出现在一起的课程,同样以某学校现有的微课平台ID用户浏览记录为例,如表1所示。表中的数据显示经常被浏览的课程是{“计算机基础”,“VIS视觉设计”,“office案例应用”},从数据集中也可以找到“计算机基础”->“VIS视觉设计”的关联规则,这意味着有人看了“计算机基础”的课程,那很有可能他也会看“VIS视觉设计”课程。关联规则由支持度和置信度来定义。

支持度:表1中数据集总数为5,“office案例应用”这门课程被浏览的次数为4,因此算出“office案例应用”这门课程的支持度为4/5,同样,{“office案例应用”,“计算机基础”}两门课程同时出现的数据集为3,代入支持度的公式⑵算出{“office案例应用”,“计算机基础”}的支持度为3/5。

可信度(置信度):由支持度的计算公式⑵算出{“计算机基础”,“VIS视觉设计”}的支持度为3/5,“计算机基础”的支持度为4/5,这时代入可信度的公式⑶算出{“计算机基础”->“VIS视觉设计与制作”}的可信度为3/4=0.75,这意味着“计算机基础”的浏览记录中,找出了75%浏览者都适用的规则。

通过Apriori算法进行关联性分析发现,75.2%的学生浏览了“计算机基础”之后,还浏览了“网络工程技术”“网络安全”这两门微课;有62.3%的学生浏览了“Photoshop视频教程”后,还浏览了“CorelDRAW视频教程”;有80.5%的同学在浏览了“列车日常事务办理”后,还浏览了“运输阻碍与事故处理”这门微课。

根据学习者学习记录,通过K-means算法和Apriori算法智能判断学习者学习行为,并将相关的微课程资源推送到学习者界面,达到精准服务学习者的目的。

4 结束语

本文阐述了K-means算法和Apriori算法在微课教学资源平台的应用,解决了教学资源平台微课資源推送不精准的问题,不仅给学习者创造了积极主动学习的氛围,而且使获取信息资源的途径有一定的智能性,对设计与开发面向微课移动学习的教学资源平台有一定的参考价值。下一步将研究相关算法,实现学习者个性化微课资源学习路径的优化推荐。

参考文献(References):

[1] 胡铁生."微课":区域教育信息资源发展的新趋势[J].电化教育研究,2011.10:61-65

[2] 温川雪,周洪建.面向智能手机与Web平台的微课移动教学系统的设计[J].中国远程教育,2014.12:60-66

[3] 杜棋东.职业教育微视频课程知识元的深度聚合与实践应用[J].中国教育信息化,2018.4:32-35

[4] 马如义.Apriori算法在词性标注规则获取中的应用[J].计算机时代,2016.10:32-35

[5] 刘迎春,朱旭,谢年春,李佳.基于数据挖掘的专业可信回答者个性化推荐——以Stack Overflow问答社区为例[J].现代教育技术,2019.29(5):78-84

[6] 李澎林,郏莉,李伟.一种基于数据挖掘的图书荐购模型研究[J].浙江工业大学学报,2019.47(1):80-85

[7] 薄洪光,李焕之,张慧琳.面向智能制造应用型人才培养的生产管理实践教学微课平台模式构建[J].实验室研究与探索, 2018.37(8):191-196

[8] 张波,李舸.基于改进聚类算法的Web异常数据挖掘软件设计[J].现代电子技术,2019.42(8):73-76,81

作者:陈雪梅 杜棋东

上一篇:艺术歌曲演唱分析论文下一篇:交通运输节能减排论文