基于数据挖掘技术的科技创新服务工作研究

2023-03-07

从某些角度来讲, 社会最大的“信息资源中心”是政府部门, 它是全社会最大的信息拥有者和处理者, 也是最大的信息资源用户。各级政府掌握着全部的政策法律信息和绝大部分的社会、经济文化信息。随着社会信息化、网络化进程的不断推进, 各类数据信息量日益庞杂[1]。市科技局及其下辖单位作为市一级科技综合管理部门, 产生、使用和拥有着大量科技政务信息, 如科技项目数据信息、科技统计信息、专家人才信息、法规政策信息等等, 同时这些单位还拥有国家专利、知识产权、期刊文献、技术交易等知识。

但是由于缺乏有效的信息分析与处理方式, 这些蕴含着巨大增值价值的信息却由于长期以来未得到足够重视, 使得数据和信息凌乱分散, 缺乏适时性、完整性、准确性与一致性。因此, 必须加强信息数据资源的分析、开发、处理程度, 分析与开发专家资源、科学仪器、实验数据、科技文献、专利、科技政策法规等信息资源, 以满足科技管理系统内部业务工作的需要、正确履行科技服务职能的需要、科学化民主化决策的需要, 同时满足各级政府部门以及企事业单位、社会公众等不同层次对信息资源共享的需要, 满足为公众和社会提供优质高效服务的需要。

随着计算机数据库技术的发展及计算机网络应用的普及, 各种科技服务信息系统经过长期运行收集了众多的不同类型的历史数据, 这些数据对社会各行业的管理起到了很大的帮助作用。但因受数据分析技术的制约, 通常只是对这些数据进行简单的查询、汇总等, 许多表面不能直接看到的、隐含在其中的但又有价值的信息未能挖掘出来, 形成了“丰富的数据, 贫乏的知识”的局面, 但在实际工作中则又需要迫切了解隐含当中的信息, 以便为管理决策服务。鉴于此, 实际的需求激发了新的数据处理技术的产生及应用, 新兴发展起来的数据挖掘技术就是其中之一, 并迅速发展起来[2~3]。

1 数据挖掘技术简介

根据通常的定义, 数据挖掘就是利用数据分析工具从随机的、不完全的且含有噪声的数据中提取隐含的、表面不为人们所知但又有价值的信息获取过程。数据挖掘又称为基于数据库的知识发现, 数据挖掘技术是一门包括多学科知识的技术, 涉及统计学、计算机数据库、计算机网络、数理逻辑等学科, 近年来许多智能技术也已广泛应用于数据挖掘领域中。数据挖掘的功能分为描述及预测, 任务主要包括:概念描述;分类;聚类;关联分析;基于web的挖掘等。用于数据挖掘的方法包括统计学挖掘、决策树挖掘、关联挖掘、粗糙集挖掘、神经网络挖掘、免疫算法挖掘等[4~5]。

2 数据挖掘技术在科技服务工作中的应用

数据挖掘技术在科技项目立项评估、科技发展趋势预测方面的应用前景非常广阔。根据初步的研究, 该技术可应用到以下工作方面中。

2.1 数据挖掘在科技立项中的应用分析

在项目评议过程中, 将基于数据挖掘的技术分析报告与传统的同行评议交互应用可在相当程度上避免以往评议的主观性与局限性, 增加科研立项决策的科学性与客观性。

2.2 数据挖掘在科技论文中的应用分析

利用数据挖掘中的关联分析可揭示论文学科领域的关系, 通过聚类分组识别密集和稀疏的论文分布区域, 采用演变分析得到未来的研发趋势, 如论文的增长情况 (论文总量、转载引用量、收录情况) 、学科与地域分布情况、学术期刊价值分析、研究热点分析等等。

2.3 数据挖掘在专利中的应用分析

对专利技术进行数据挖掘, 可确定当前科学研究热点和新生技术、特定技术领域的开发动向与倾向, 识别技术的交叉领域与派生领域, 发现新的技术合作机会或得到技术创新的启迪等等。

2.4 数据挖掘在科技资源中的应用分析

利用数据挖掘技术, 可以对科技资源的分配与利用、科技队伍的结构与配置进行分析, 识别影响其效果的因素, 评价其开发、利用与供给的状况, 如人才结构分析、人才环境与科技产出分析、人才投入与科技产出分析、科研队伍分析、科研资金投入与使用分析等等。

3 应用实例举例

当数据挖掘与分析系统建立起来后, 将为日常的项目调研、评价、咨询工作带来强大的方便, 以下是一个分析的实例。

以公路工程领域为研究对象, 以SCI相关文献作为数据检索源, 通过计算文献主题关联度以及元素之间在主题意义上的关联性, 对文献组进行深层次、具体的微观研究, 细致地剖析科学技术发展的各主要层面, 为政府制定科技计划提供一个总体思路和基本框架[6]。

3.1 公路工程领域技术水平定位

图1显示, 当今国际公路工程领域按技术水平进行定位, 主要分成四个群体:中国在此领域的总体技术水平与澳大利亚、英国、新加坡、荷兰和丹麦大致处在同一水平;加拿大、日本、韩国、西班牙和瑞士在公路工程方面的技术能力大体接近;以色列和意大利在此领域的技术水平相似;希腊技术水平相对较低;美国在各个领域的研究强度较高, 范围较广, 其技术水平最高。进一步分析得知, 中国所在的位置处于本组群的最上方, 非常靠近韩国、西班牙和日本, 说明中国在公路工程领域总体的技术水平与澳大利亚、英国、新加坡和丹麦相当, 但在个别技术领域与韩国、西班牙、日本水平接近。

3.2 公路工程领域技术合作研究

从整体来看, 美国、加拿大、中国、日本和英国形成最主要的技术合作群体 (图2中虚线圈) , 其他国家围绕上述国家形成了外围的技术合作群体;美国和加拿大在技术合作域处于绝对的核心地位, 二者之间技术合作的强度也最高;中国与美、加、日、英等技术强国展开了广泛的合作, 但鲜有与我国台湾地区的合作。澳大利亚仅次于美国, 成为中国第二大技术合作伙伴。

经过分析, 中国与他国开展技术合作的具体领域情况就可以汇总出来, 可以看出, 中国在公路工程领域总体的技术水平与澳大利亚、英国、新加坡和丹麦相当;中国与美、加、日、英等技术强国展开了广泛的合作, 但鲜有与我国台湾地区的合作。这样, 我们就可以对这一领域技术的现状、特点、影响、发展趋势和速度进行测定, 为政府科技计划的制定提供决策信息支持。

4 对科技创新服务工作中应用数据挖掘技术的一点设想

数据挖掘是一个较为复杂的系统性工程, 基本的步骤如下所述。

(1) 确定挖掘目标。需要系统分析员和用户的共同参与, 了解应用领域及相关的经验知识, 从用户的观点出发确定数据挖掘的目标。

(2) 建立目标数据集。需要解决数据挖掘平台、操作系统和数据源数据类型等不同所产生的数据格式差异。从现有的数据中, 确定哪些数据是与本次数据分析任务相关的, 根据挖掘目标, 从原始数据中选择相关数据集, 并将不同数据源中的数据集成起来。

(3) 数据清洗和预处理。对于选择出的数据, 需要进行数据清洗工作, 将数据转变成“干净”的数据。目标数据集中不可避免地存在着不完整、不一致、不精确和冗余的数据, 数据清理后必须利用领域专业知识对这些“脏数据”进行清洗。

(4) 数据降维和转换。在对数据库和数据子集进行预处理之后, 往往需要对数据进行降维与转换。降维是指在考虑了数据的不变表示或发现了数据的不变表示的情况下, 减少变量的实际数目, 并设法将数据转换到一个更易找到解的空间上。

(5) 选择数据挖掘方法。使用合适的数据挖掘算法完成数据分析。首先, 确定实现挖掘目标的数据挖掘功能, 这些功能包括概念描述、分类聚类、关联规则等。其次, 选择合适的模式搜索算法, 这包括模型和参数的确定、算法和数据挖掘目标一致性保障等, 数据挖掘算法包括决策树神经网络、粗糙集、遗传算法等。

(6) 模式评价和解释。根据最终用户的决策目的对数据挖掘发现的模式进行评价, 将有用的模式或描述有用模式的数据以可视化技术和知识表示技术展示给用户, 让用户能够对模型结果解释, 同时评价模式的有效性。

数据挖掘需要建立在数据仓库的基础之上, 而数据仓库的建立又取决于对不同数据库信息的梳理、整合和存储[7]。应该看到, 在目前的工作基础上应用数据挖掘技术还有较长的路要走, 主要的问题有以下几点。

(1) 数据库资源管理、开发人才队伍的建设。此项目需要懂数据库开发与管理、熟悉科技工作内容和流程、了解科技项目管理工作的技术人员。由于通常开发技术优秀的人才通常不懂具体的业务流程, 需要在技术应用的过程中不断与业务部门进行快速高效的学习、交流, 故对其综合素质要求较高, 因而人员成本也较高。

(2) 数据来源的准备。数据是所有工作开展的基础, 需要将科技文献、期刊信息、专利信息、项目信息、企业院所信息、专家人才信息进行统一查询与分析。目前这些信息以不同的存储形式分散在不同的信息系统中, 需要将这些信息提取出来进行统一整合、整理, 才能开展进一步的工作, 这就涉及到信息版权、系统访问权限、数据存储方式、整理整合工作量等具体问题。

(3) 数据挖掘模型、分析指标的选则与验证。对于同样的数据仓库, 采用不同的算法和策略, 挖掘出的指标数据会有不同, 但何种方法最趋近与真实趋势、符合客观实际, 这需要设计合理的验证方案。

(4) 计算和存储的硬件设备。数据仓库的数据量可能达到数百GBit, 挖掘运算周期如在普通PC上执行也许会长达数小时, 容量和效率的要求需要一定配置的服务器和存储器来支撑。

通过建立科技数据挖掘与分析系统这个工具, 我们可以充分利用现有的科技、政务信息资源, 为区域内的科研院所、企事业单位提供信息增值服务。

摘要:科技创新服务是现代科技发展活动的重要部分, 同时也是数据挖掘的重要应用领域。数据挖掘技术及其在科技创新服务的应用研究已经成为学术界和企业界共同关注的领域。本文在对数据挖掘科技创新服务以及数据挖掘在科技创新服务中的应用的研究现状进行文献综述的基础上, 提出了数据挖掘技术及其在科技创新服务中的应用研究的相关主题。作者以科技项目评估知识和理论为基础, 以数据挖掘技术作支撑, 力求深入研究数据挖掘在科技创新服务中的应用方法。

关键词:数据挖掘,科技信息,科技服务

参考文献

[1] 陈士俊, 赖迪辉.数据挖掘在科技评估中的应用[J].科学学与科学技术管理, 2005, 4:40~43.

[2] 梁立明, 谢彩霞.词频分析法用于我国纳米科技研究动向分析[J].科学学研究, 2003, 21 (3) :138~142.

[3] 邱均平, 赵蓉英, 侯经川.2002年国内外情报学发展动向研究[J].情报学报, 2003, 22 (5) :515~519.

[4] 朱东华, 袁军鹏.基于数据挖掘的科技监测方法研究[J].管理工程学报, 2004, 18 (4) :135~139.

[5] 李艳, 赵新力, 齐中英.技术竞争情报的现状分析[J].情报学报, 2002, 25 (2) :242~253.

[6] 康宇航, 苏敬勤.政府科技计划中技术跟踪的应用—一个实证研究[J].科技政策与管理, 2008, 3:31~35.

[7] Mathias M C.Competitive Rechnical Intelligence:A Guideto Design, Analysis, and Action, Oxford University Press, 1999:127~129.

上一篇:老干部思想政治工作须与时俱进下一篇:论计算机图形图像软件应用