Web医疗咨询数据

2024-05-14

Web医疗咨询数据(精选九篇)

Web医疗咨询数据 篇1

Web已成为世界上最大的信息数据源,如何从海量Web数据中检索用户感兴趣的信息已成为工业界和学术界日益关注的一个重要研究方向。医疗则一直是与人们切身相关的核心热点话题,时下,即有61% 的美国成年人正通过互联网咨询健康建议[1]。另以国内有问必答网为例,每2小时内就会新增近两千条医疗咨询数据。综上分析可知,研究大规模医疗咨询数据的检索技术必将具有重要的应用价值和实际意义。

文本是信息的最重要载体之一,文本相似度计算即是信息检索中的重要手段和实现基础。传统的文本相似度计算方法及其改进算法则是基于向量空间模型[2]的,其中是将每篇文档表示成向量。TFIDF算法[3]就是一种计算文档中词项权重的经典算法,该算法简单有效,然而该算法却仅是统计词项在文档集中出现的频率信息,而忽略了在文档内容标识上发挥重要作用的关键词[4]。同一个词项对不同领域中文档的标识能力不同,以医疗领域为例,与病症、药物相关的词项对文档的标识能力比其它词项更大。在这种情况下,基于TFIDF算法的文本距离度量方法并不能反映文档的真实距离。现举一例如,在语句“服用拉西地平片可能会引发头痛、心悸等现象”中,“拉西地平片”为药物名,“头痛”、“心悸”为症状名,这些关键词项比其它词项将包含更大的医疗信息量,即使词项“服用”或”引发”与关键词具有相同的TFIDF值,但这些词项的重要程度也明显不如关键词。此外,医疗咨询数据还具有一定的结构化特点,如包含性别、年龄、地区、症状描述、药物使用情况等属性项。研究中通过对Web医疗咨询数据进行统计分析,发现不同属性项对检索结果贡献的重要性也各有不同,因此,不能用传统的TFIDF算法计算所有词项的权重。

针对上述问题,本文提出基于分段向量模型的Web医疗咨询数据检索方法。首先,根据Web医疗咨询数据的结构特点,构造分段向量模型,然后将咨询数据按此模型给出明确表示。对两分段向量分别计算对应分段的相似度,最终通过计算分段相似度加权和的方法产生更加准确的检索结果。本文在真实的Web医疗数据集上进行实验,验证了本文所提方法在提升文本相似度准确率方面的实用性和有效性。

本文第1节介绍论文相关工作; 第2节详细介绍改进的文本相似度计算模型,包括Web医疗咨询数据的收集、数据预处理、中文分词处理以及算法实现; 第3节给出本文所述方法的实验验证; 最后是总结和展望。

1相关工作

1. 1 TFIDF算法及其改进

文本相似度计算过程中特征项的权重计算对结果有较大的影响,TFIDF算法是计算特征项权重的重要算法之一,由Salton[3]首次提出。TFIDF算法的核心思想是: 一个词在特定的文档中出现的频率越高,说明该词在区分该文档内容属性方面的能力越强( TF) ; 一个词在文档中出现的范围越广,说明该词区分文档内容属性方面的能力越弱( IDF) 。信息检索领域广泛地使用TFIDF算法计算特征项权重,其经典计算公式为:

其中,tfij表示特征项tj在文档di中出现的次数,idfj表示特征项tj的逆文档频率,N表示文档总数,nj表示出现特征项tj的文档数。

TFIDF算法简单 有效,但却并不 具有普适 性。传统TFIDF算法将文档集作为整体来考虑,忽略了特征项在类间和类内的分布情况。张玉芳和陈小莉等人[5]即针对类间、类内分布偏差,把信息增益公式引入文档集中,并随即提出了基于信息增益的TFIDF算法TFIDFIG。而在TFIDFIG的基础上,李学明和李海瑞[6]等人则引入信息熵的概念,同时提出了一种基于信息增益与信息熵的TFIDF算法TFIDFIGE,实际上进一步提升了文本分类结果的准确率。然而,此类算法均未考虑文档中信息的结构特点,而且又忽略了特征项的领域意义,有鉴于此,本文在传统TFIDF算法的基础上,提出了针对Web医疗咨询数据的检索方法。

1. 2 Web医疗咨询数据检索

搜索技术在医疗领域的作用日益显著,源于可用医疗信息量的迅速增长,其中包括特定患者的信息( 如电子健康记录) 以及基于知识的信息( 如科学文章)[7]。人们渴望获得医疗信息,但已有的网页搜索引擎并不能很好地处理有特殊需求的医疗搜索查询。医疗信息检索者通常不能准确地描述自身问题,而且对医疗专业术语也并不熟悉。这就使得查询语句可能很长,对病情症状的描述也多倾向于口语化。Gang Luo和Chunqiang Tang等人[9]提出了专门针对医疗信息检索的搜索引擎Med Search,该引擎能够去除查询中的停用词,并从查询中提取重要的、具有代表性的关键词来精简查询,如此则不仅提升了查询速度,也提高了检索结果的质量。不准确的搜索结果还可能会增加人们的焦虑。I. Stanton和S. Leong等人[9]研究了如何从自由格式的医疗搜索查询中发现潜在的专业医疗术语,藉此将医疗查询映射为专业术语,而不是直接改善排名算法。另有S. Hsieh和Wen Yung Chang[10]等人利用Google AJAX Web搜索引擎的返回结果估算两个生物医学术语的语义相似度。再有Sh ARe/CLEF e Health Evaluation Lab ( SHEL) 于2013年提出了医疗疾病信息检索的共享任务,Yaoyun Zhang和Trevor Cohen[11]等人又为检测有关疾病的查询和网页之间潜在的语义相关性,而相应提出了基于分布式语义的语义向量模型。

2计算模型

本节首先介绍Web医疗咨询数据的预处理,然后分析了传统TFIDF算法不适合处理Web医疗咨询数据的原因,进而提出了基于分段 向量模型 ( Segmented Vector Model,SVM) 的Web医疗数据检索方法并给出其算法实现。

2. 1 Web医疗咨询数据的预处理

本文采用真实的Web医疗咨询数据作为实验数据集,首先将网页源码下载到本地,然后用HTML解析器解析其内容。网页源码集H = { h1,h2,…,hm} ,其中m表示源码集大小。有问必答网是国内最大的医患交流平台,选择该网站中与高血压相关的咨询数据作为研究对象,获取得到208 110条高血压咨询数据。

HTML文本h是一种半结构化的文本,由标签和内容组成,根据标签位置编程抽取h中目标数据,可得记录集R ={ r1,r2,…,rm} ,其中ri对应hi,即ri为hi解析结果。对任意的r∈R,主要由以下字段构成: 记录编号recordid、用户性别gender、年龄age、地区location以及病情描述,其中gender、age、location字段为基本数据类型,既可以存储在传统数据库中做一般性查询分析,也可以存储在文本中用作其它分析。而病情描述字段则由连续中文字符串组成,为文本型数据,尽管也可以将其作为一个字段导入传统数据库中,但并无实际意义,无法对其做查询分析,同时也不能计算彼此之间的相似度,因而需对其实施进一步的操作处理。

为使检索结果更精确,对r中字符串类型数据分别提供一定处理,对属性gender、age、location来说,处理方式如下:gender值域为{ 0,1, - 1} ,男性为1,女性为0; age字段按年龄段划分,其值域为{ 0,1,2,- 1} ,年龄段划分遵从联合国世界卫生组织标准: 44岁以下为0,45岁至59岁为1,60岁以上为2; location字段按地理大区处理,将省份或者城市转换为对应的地理大区,大区集合为{ 华北,华中,华东,华南,西北,西南,东北,港澳台} ,依次用数字0 - 7表示,地理区划标准参照百度百科,location值域为{ 0,1,2,3,4,5,6,7,- 1} ,其中 - 1表示用户未设定值或值错误。

此外,r中病情描述字段为文本型数据,由连续中文字符串组成,也需对其进行中文分词处理。针对病情描述字段中可能包含的病症( symptom) 及服用药物( drug) ,从Internet收集并整理了相应的症状字典dict_symptom和药物字典dict_drug。其中,dict_symptom中的词项主要来源于华商网的症状库及百度知道,共计条目6 485种。dict_drug中的词项主要来源于同仁堂药品目录、中药药材名称大全及其它药品名称大全,共计条目4 702种。停用词表主要来源于哈工大停用词表及通过观察记录集R自行添加的停用词,共计条目1 411个。对记录做分词处理时,字典中的词项不会被分割,而停用词表中的词项将会被移除。本文选用复旦大学Fudan NLP分词工具处理病情描述字段,经分词可得病情描述集C = { c1,c2,…,cm} ,其中ci对应ri的病情描述字段,由一系列中文词项构成,词项间用空格分开。C中所有词项构成词项集T = { t1,t2,…,tm} 。

2. 2检索模型

2. 2. 1 TFIDF模型及其缺陷

向量空间模型是一种简便、高效的文本表示模型,对于文档集D = { d1,d2,…,dm} ,构建向量td来表示文档d,td中每个分量用TFIDF算法计算。文档相似度可用对应向量的余弦相似度来表示,文档a与文档b的相似度计算公式如下:

TFIDF算法在计算td中各分量值wdi时仅考虑文档d中词项ti的频率信息,然而同一个词项对不同领域中的文档的标识能力却各有不同,在医疗领域中,与病症、药物相关的词项比其它词项包含的信息量更大。例如,在语句s = { 服用拉西地平片引发头痛等 不良反应} 中,“拉西地平片”为药物名,即使计算词项权重时发现词项“服用”与“拉西地平片”具有相同的TFIDF值,后者所包含的医疗信息量也明显大于前者,所以基于TFIDF算法的文本距离不能反映两条医疗咨询记录间的真实距离。经研究分析发现symptom和drug包含的医疗信息量即明显大于gender、age、location及其它无意义词项。因此,传统的将整条记录作为TFIDF算法的输入进行相似度匹配的方法难以满足现时的检索要求。为此,本文提出了基于分段向量模型的Web医疗咨询数据检索方法。

2. 2. 2分段向量模型的建立

2. 2. 3基于SVM模型的检索策略

给定一条查询语句query,query格式与记录ri相同,要计算query和ri的相似度,首先按上述方式对query进行分段,得q = ( q1,q2,…,q6) ,其中qj表示query的第j个分段。用两种不同方式计算q与ri不同分段的相似度,第一种方式为自定义的相似度计算方法,用于计算query和ri在基本类型数据部分的相似度,即计算query和ri在gender、age、location分段的相似度,第二种方式基于TFIDF算法,用于计算query和ri在文本型数据部分的相似度,即计算query和ri在symptom、drug、others的相似度,将分段表示成向量形式后,分段相似度等于两向量的余弦相似度。对分段相似度进行加权和计算,两者的最终相似度Similarityi为各分段相似度Similarityij的加权和,即得相似度计算公式,为:

式中,k = 6,αj为第j个分段的影响因子,Similarityij为qj与pij的相似度,pij表示ri的第j个分段。通过对Web医疗咨询数据的内容进行采样统计分析,发现分段symptom以及drug对检索结果的贡献大于gender、age、location以及others。为此,权重分配上令α4= α5= 0. 4,α1= α2= α3= α6= 0. 05。可逐步调整αj以获取最优的权重分配方案。

计算Similarityij时考虑两种情况: 当时j = 1,2,3时,对应分段gender、age、location,Similarityij由自定义的相似度计算公式求得,见式( 5) ; 当j = 4,5,6时,对应分段symptom、drug、others,Similarityij由基于TFIDF算法的文本相似度公式求得,见式( 3) 。对Similarityij进行排序即可获得与query最相似的咨询记录。检索模型的算法实现见2. 3节算法1。

式中,domain Sizej为pj值域的大小,如属性gender,其值域为{ 0,1,- 1} ,则domain Size1= 3。式( 4) 主要思想是,当两个属性值已知并且相等时,其相似度为1; 当两个属性值已知并且不相等时,其相似度为0; 当有属性值为 - 1时,由概率知识得其相似度期望为1 /( domain Sizej- 1) 。以gender为例,当两者同为0或同为1时,其相似度为1; 当两者分别为0和1时,其相似度为0; 当两者中出现 - 1时,其相似度为1 /2。计算age分段的相似度时,domain Size2= 4; 计算location分段的相似度时,domain Size3= 9。算法实现见2. 3节算法2。

2. 3算法实现

本文基于SVM模型的检索策略的具体实现算法如算法1所示。

算法1. SegmentedV ector Model( q,R,N)

输入: q,R,正整数N

输出: R中与q相似度最高的前N条记录

上述算法中,步1对q进行分段,partition( ) 函数按照指定方式将q分成6段。步2 - 10划分R并计算q与ri各分段的相似度。customD efinedS imi( qj,pij) 函数计算q与ri在分段gender、age、location的相似度,其算法实现见算法2,tfidfBasedS imi( qj,pij) 函数计算q与ri在分段symptom、drug、others的相似度,计算过程基于传统TFIDF算法,其算法实现见算法3。步11计算q与ri各分段相似度的加权和,即得q与ri的相似度Simlarityi。步12对求得的所有相似度进行排序,sort( ) 函数为排序函数,最后返回相似度最高的前N条记录。算法1用两种方法计算分段相似度,并可自定义各分段pj的影响因子αj,这种处理方法充分考虑了原始数据集的特征,相对传统方法更灵活。

本文用自定义的相似度计算方法计算q与ri在分段gender、age、location的相似度,其算法实现如算法2所示。

算法2. customD efinedS imi( qj,pij)

输入: qj,pij

输出: Similarityij

上述算法中,当两个属性值qj与pij已知并且相等时,其相似度为1; 当两个属性值已知并且不相等时,其相似度为0; 当有属性值为 - 1时,由概率知识得其相似度期望为1 /( domain Sizej- 1) 。

本文用传统的TFIDF算法计算q与ri在分段symptom、drug、others的相似度,其算法实现如算法3所示。

算法3. tifidfB asedS imi( qj,pij)

输入: qj,pij

输出: Similarityij

上述算法中,步1对qj进行分割,split( ) 函数按空格分割qj,得到词项数组terms。步2 - 8统计terms中各词项在qj中的出现次数。步9 - 12计算各词项的TFIDF值,其中映射表M保存C中所有词项的IDF值。词项TFIDF值的计算方法见公式( 5) 。mapQ和map P保存qj与pij的词项及相应的TFIDF值。步15 - 19计算qj与pij词项的内积和。步20 - 22计算qj与pij的模,并用余弦相似度作为qj与pij的文本相似度。

其中,termtf为词项term在qj中的出现次数,termidf为R中出现term的记录数。

3实验

3. 1实验环境与数据集

实验运行的硬件环境为IntelCore TM i5 - 2400 CPU @3. 10GHz,内存4GB,操作系统为Windows7。开发环境为Eclipse.

实验采用的数据集是2. 1小节中所述的高血压网页源码集H,共计208 110个网页。每个网页对应一条咨询数据。网页集经解析和中文分词处理后得到咨询记录集R,存储方式为( recordid,value) ,recordid为记录编号,唯一标识一条记录,value对应咨询数据内容,包括分段gender、age、location、symptom、drug以及others,分段间以竖线分隔,分段中词项以空格分隔。

3. 2实验结果与分析

实验从R中随机产生10条咨询记录作为查询query,针对每条query分别采用基于TFIDF算法的检索策略和本文提出的基于分段向量模型的检索策略SVM,比较采用不同策略时检索结果RR的准确率。用p表示RR的准确率,a表示RR中与query相关的咨询记录数目,b表示RR中与query不相关的咨询记录数目,则:

3. 2. 1不同的检索结果返回记录数

影响因子αi的初始分配参照2. 2. 3小节,即α1= α2=α3= α6= 0. 05,α4= α5= 0. 4。对每条query分别采用两种不同的检索策略,RR分别返回10条和20条记录,人工为返回记录评分,用score表示,若记录与query相关,则score = 1; 若记录与query不相关,则score = 0。检索策略的有效性用RR的准确率p来表示,p值越高表示检索策略越有效,反之亦然。

在此,给出返回记录数为10时的匹配结果,如图1所示。

从图1中可以看出,60% 的查询在采用SVM检索策略时RR的准确率比TFIDF高,30% 的查询在采用SVM检索策略时RR的准确率比TFIDF低,其原因是用户的查询语句中包含symptom或drug字段,但其所提问题却与symptom和drug无关,而SVM检索策略给予symptom和drug较高权重,导致其准确率不如TFIDF。当用户的查询语句表述不清楚,SVM和TFIDF均不能返回与之类似的记录。

图2的分布与图1保持一致,可知RR的准确率几乎不受其返回记录数的影响。

3. 2. 2优化影响因子

如2. 2. 3小节所述,分段gender、age、location和others对检索结果的贡献不及symptom和drug大,且彼此之间重要程度相差不大,故可作如下假设:

式中,A表示α1、α2、α3、α6的权重和,B表示α4、α5的权重和,且A < B。上一小节已表明采用SVM检索策略比采用TFIDF策略检索结果的准确率高,本实验采用SVM检索策略,对比不同影响因子对RR准确率的影响,设置权重时分别令A = 0. 2和A = 0. 3,实验结果如图3所示。

从图3中可以看出,权重值的细微调整对RR的准确率影响不大,但整体上A越小,RR的准确率越高,即当赋予symptom和drug的权重值越大,SVM检索策略越有效。

4结束语

Web医疗咨询数据 篇2

WEB防护八大要诀 构建立体网络防护

对于任何一个项目,开始阶段对于交付安全的应用来说非常关键。适当的安全要求会导致正确的安全设计。

1、认证和口令管理

这主要是一种一次性的活动而且仅仅是作为项目的一部分而完成的。有人可能会问一些与认证和口令管理有关的问题:

【口令策略】这个问题非常重要的原因在于避免与用户凭据有关的字典攻击。

【口令哈希算法】确保通过适当的加密算法来加密口令也非常重要。

【口令重置机制】为了避免 修改或截获口令,重置机制非常关键。

2、认证和角色管理

在分析项目的安全问题时,要确认所有的关键功能,并确认哪些人可以获得授权访问这些功能。这样做有助于确认各种不同的角色,并可以使访问控制到位。

3、审计日志记录

询问并确认所有与已经发生的攻击有关的所有关键业务是很重要的,这是因为这些攻击对企业的会产生重大影响。企业应当能够分析与这些业务有关的审计日志记录。

4、第三方组件分析

询问并分析一下企业是否必须使用第三方的组件也是一个重要问题。在此基础上,企业分析与这些组件有关的已知漏洞,并做出恰当的建议。

5、输入数据验证和净化

询问并理解和分析输入数据的属性,并为数据的验证和净化做好计划是很重要的,

这种操作主要与解决跨站脚本攻击这类漏洞有关。数据验证和净化还有助于避免SQL注入的大规模发生。

6、加密和密钥管理

这是为了分析是否存在需要保证其安全的业务,并且这些业务是否需要握手机制(在处理业务之前,可使用多种与公钥或私钥的交换有关的多种技术来实施这种机制)。

7、源代码的完整性:

这是一种一次性的活动,并且要求在项目的开始阶段完成。这样做有助于如下两个方面:

源代码应当存放在一个有良好安全保障的控制仓库中,并且在遵循“最少特权”的原则前提下,有强健的认证和基于角色的访问控制。你还应当关注关于源代码库和相关工具的问题。

此外,在代码的开发及传输过程中,你还可以分析关于源代码容器的工具问题以及代码的保护问题。

8、源代码的管理。

讨论源代码的审查策略是一个关键问题,因为这种做法会要求自动化的和人工的代码检查问题,并且在一定程度上会影响总体的项目时间(要求进行代码检查时间和针对检查意见的修复时间)。这是一种一次性的活动,因而应当在项目的开始阶段完成。

加密被不置一次提到 数据时代加密是最核心的防护

从上面的八个要诀我们可以看出,虽然是基于网络防护的手段,但是其中许多层面不只一次的出现了加密防护的身影。由此我们可以得知,虽然我们防护的是网络,但是防护的主题依然是那些“遨游”于网络的价值数据。而作为最贴近的数据本源防护的手段,加密技术自然是最佳的选择。而为了应对网络层面多样的 防护需求和安全环境,采用国际先进的多模加密技术又无疑是最佳的选择。

多模加密技术采用对称算法和非对称算法相结合的技术,在确保了数据本源防护质量的同时,其多模的特性能让用户自主地选择加密模式从而能更灵活地应对各种防护需求。

Web医疗咨询数据 篇3

【关键词】医疗咨询; 服务平台; P2P; 设计; 开发

【中图分类号】R197.6【文献标识码】B【文章编号】1007-8231(2011)05-0004-01

互联网让全球用户以免费或低成本的方式进行沟通交流,电子邮件(E-mail)、VoIP、即时消息(QQ、MSN)或社区(Facebook,Myspace)等应用使得互联网用户的交流沟通成本大大降低,对电信业务,特别是语音通信业务,产生了巨大的冲击,并且将继续对语音通信服务进行分流。互联网给全球电信行业的发展提出了很大的挑战,为此语音网必须向为用户提供综合信息服务方向转型,而充分利用互联网的优势,实现电话网与互联网的优势互补,向用户提供基于互联网的话音新应用是目前业界正在研究一个热门课题。本平台就是基于上述目的而设计开发的。

1平台的关键技术分析

平台采用了当前最先进的互联网对等技术(P2P),支持H.323、SIP、MGCP等多种通信协议的通讯连接,并利用 .NET 框架的公共语言运行库技术,结合GCMS网站群模式,成功地将互联网与电话网有机地结合在一起。P2P起源于最初的联网通信方式,即时通讯类软件(ICQ)就是它的典型应用。它可以在两个或多个用户互相使用文字、语音或文件进行交流,易于同非PC网络设备(如PDA、手机)通信,而且它不依赖设备即可辨别用户,由于利用P2P技术可以弱化甚至摆脱对中央服务器的依赖,这样的通信更接近非互联网通信模式。而如果考虑P2P和SIP技术的结合,就可能在未来为电信运营商创造更多的业务和收入。

SIP(信令协议)是多媒体通信业务的核心部分,SIP是网络应用于创建、修改、终止多媒体会话或呼叫,这些多媒体会话包远程教育、网络电话以及其它相关应用等。SIP支持名字匹配ISDN和智能网络电话用户业务的实现,也支持个人移动性,功能强大。与其他服务于建立多媒体呼叫連接的协议相比较,SIP协议具有简洁、扩展性好、面向事务处理等特点。具体来说,SIP主要支持以下5个方面的多媒体通信功能:1)用户定位(User location)确定通信所使用的终端系统位置;2)用户能力判断(User capability)确定通信所使用的媒体类型及媒体参数;3)用户可用性判定(User availability)确定被叫方是否愿意加入通信;4)呼叫建立(Call setup)在主叫和被叫之间建立约定的、支持特定媒体流传输的连接;5)呼叫处理(Call handing)包括呼叫修改和呼叫终止等处理。作为IETF多媒体数据和控制整个体系结构的一部分,SIP能与RSVP、RTP、RTSP、SAP、SDP等协议一起协同工作。此外,SIP可以使用会议控制系统中的多点控制单元(MCU),取代多播发起多方呼叫;电话网系统中连接PSTN各方的网关也可使用SIP相互建立呼叫。

2平台的框架设计

医疗咨询在线服务平台主要包括以下几个主要部分:

2.1医疗咨询服务平台网站:该平台为包含海量相关领域资讯的专业医疗信息平台,其中涉及了政府单位、科研单位、医院机构及医疗器械生产企业等各个方面,并提供了医院汇决、名医在线、产业研究、市场调研信息等精确的资讯。该网站主要从以下横向按照行业、纵向按照服务两方面做出分类。

2.2医疗咨询服务平台自动连线(回呼)系统:医疗咨询服务平台自动连线(回呼)系统作为平台的主要突破技术,通过该系统把此模块嵌入网站,广大浏览者可以通过互联网登录该平台,详细查阅每个医院或专家的资料后,在相应的对话框中录入自己的接听电话号码,发送信息后3-5秒内即可接到对方的电话回呼,展开即时通话。客户端使用者无需安装任何插件,只需在浏览该目标网站时选择想交流的对象,根据指令输入接收呼入的号码,服务器接到指令后,3~5秒内会自动对接,双方即可展开通话。

2.3医疗咨询服务平台智能管理系统:医疗咨询服务平台智能管理系统主要为平台(网站)及自动连线系统提供后台各项管理功能,具体如下:(1)网站的管理:栏目管理(添加、删除、修改)、文章管理(添加、删除、修改)、智能搜索(关键字、栏目搜索)等;(2)自动连线功能管理:主要为连线系统中所有数据对接匹配的号码,平台架构于INTERNET互联网络的服务器终端,通过这个管理平台,可全面设置医院等各种医疗机构咨询总机的各项数据,设定医疗专业分类、对接医院专家、绑定回呼号码等繁琐的功能,简单轻松地完成全部管理操作。

3平台的具体实现

3.1平台的前台功能:平台的前台主要有名医在线、疾病问答、医院汇总、药店汇总、相关研究、回呼系统等几部分组成。

3.2平台的后台管理功能:后台有管理功能有名医在线、医院汇总、药店汇总、相关研究、疾病问答等组成,每部分再有小的功能;回呼系统另有系统管理平台实现。

4平台的创新点

医疗咨询与服务系统的研发,运用当前最先进的互联网对等技术(P2P),支持H.323、SIP、MGCP等多种通信协议的通讯连接,结合MicrosoftVisual Studio.NET 和 .NET 技术,并利用 .NET 框架的公共语言运行库技术,结合GCMS网站群模式,达到在具备安全性与易用性的情况下,用户可以根据实际工作需要,灵活地自行设计工作流程,进而实现通过互联网进行即时回拔通话,完成实时在线咨询服务。

参考文献

[1]王新,崔萌萌.基于SIP的校园即时通信系统[J].武汉理工大学学报,2010(24):133-135

[2]白羽,洪飞.基于P2PSIP协议的即时通信系统[J].计算机系统应用,2009(2):16-19.

WEB招聘数据监管平台 篇4

采用网络招聘模式[1],能够使时间和空间变得不再被约束,公司不需要被寻纳人才资源所忧伤,应聘人员也不再疲于奔命。求职人员只应当在系统中构建完整地数字化简历,各类企业的招聘人员都能够采用该平台获取该求职人员的数据和信息,该模式和纸类文档不能等同。浏览信息的招聘人员数目较多,求职人员数目多,因而对招聘人员来讲优秀人才增多,而对求职人员来说工作岗位增加。此外,采用网络的方式,传播较为简单,易于拓展。

传统的人才招聘模式为张贴海报宣传招聘内容,召开大规模招聘会,采用报纸招聘,采用猎头公司进行高端人才的探访。当前的人才招聘模式为网络模式招聘,招聘会招聘,但是大多数的网络招聘信息管理模式制作不专业,并且界面设计不便于浏览,信息浏览模式不便捷,因而本文构建基于web的WB招聘信息管理系统。本课题下一步的研究方向为完善以及改进招聘监管系统,采用CSS等策略实现优化,使得基于web的WB招聘信息管理系统具备更加良好的操作特性;针对系统的安全性进一步完善,构建响应实时,性能完备的系统。

1. 本文相关技术介绍

1.1 B/S架构

伴随WEB策略的产生,B/S浏览装置随即产生,该模式的主要效果即将获取的效能排布在服务装置之上。该模式的构造费用较低,选取区间较大,并且装设在Linux服务模式上实现B/S监管软件的构建。

1.2 数据库策略

本文给出的人才招聘系统是数据库的主要部分。依据研究可知,现存的招聘模式的信息集合为关系模式的数据库。本系统针对数据库部分选取SQL模式研发。采用该语言能够实现增加,删除等操作。

2 系统需求解析

2.1 技术可行性

本课题主要设计和实现基于web的WB招聘信息管理系统,实现基于web的WB招聘信息管理系统的各个功能模块,并且辅助网站的站长负责管理基于web的WB招聘信息管理系统。为了达到预期设计

目标,网站使用的语言是能够支持动态页面的开发语言。在选择开发语言上,该平台的主要研发模式是通过数据库技术结合java编程语言在Web服务器结合SQL Server 2008[7]的开发环境,编写程序并构建数据库管理,完成一个B/S结构的基于web的WB招聘信息[8]管理系统的发展需求,本文在实际开发过程中,最终选择了采用WEB来完成招聘信息管理系统的设计。

2.2 经济可行性

如今是信息化时代,本系统对计算机配置的要求不高,企业机房更换下来的低配置电脑都可以完全满足需要,所以在经济上具有完全的可行性。因而基于web的WB招聘信息管理系统可以搭建在任何大,中,小型公司,帮助WB招聘信息管理系统的双向使用者,譬如招聘人员完成招聘工作以及应聘人员应聘到适合自己的工作,为实现和构建完整的WB招聘信息管理系统打下良好的基础。

2.3 操作可行性

本课题设计的基于web的WB招聘信息管理系统操作简单,输入信息页面大多数都是下拉框的选择形式,在某些页面,信息可以自动生成,无需输入,时间的输入也是用的日历控件,操作简便,对操作人员的要求很低,只需对WINDOWS操作熟练即可,而且本系统可视性非常好,所以在技术上不会有很大难度。设计界面是要方便管理员使用和操作,具备良好的数据录入准确性和可靠性。

3 系统整体设计

3.1 系统的运行状况以及网络模式

实现整个系统的研发,主要的服务装置包含SQL Server 2008服务装置以及WEB服务装置。整个系统的运行状况为Linux[10],后台的信息集合为SQL Server 2008。整个系统的研发模式为B/S模式,使用者采用本系统时,应当在浏览装置中给定的相应的连接,实现整个系统的注册以及登入。

整个系统的构建平台为ASP.NET,选取的研发语言为java,信息集合为SQL Server 2008。

3.2 系统的整体性能构建

针对系统进行划分,能够将系统划分为以下几个模块[11],其中主体部分包含三个板块,个人使用者部分,企业使用者部分和监管使用者部分。在个人使用者部分能够实现使用者的简历构建,监管以及简历状况的查看和投递等任务,并且检察能否通过;企业使用者部分能够实现招聘数据的发布,监管招聘职位,检测系统推荐的工作人员,针对适合条件的人员给出面试请求;监管使用者部分主要监管使用者数据,监管新闻信息,关于网站实现维护。

4 系统各部分设计

4.1 个人用户部分

使用者注册之后,会员部分给出相关操作,求职人员能够依照该模式设计简历构建部分,简历投递部分,职位搜寻部分。使用者的基础材料监管,求职人员简历监管,岗位搜索部分形成个人用户部分。

求职人员的基本资料部分包含求职者采用该部分实现自我信息的完善,包含求职者的名词,性别部分,出生时间,居住地点,工作阅历,联系方式。

求职人员的信息管理,求职人员能够采用该部分构建自我简历,并且给出相应部分,填写个人基本数据,教育环境,培训经验,英语等级以及期待收入等。求职人员完善数据之后能够实现监管,查看,删除等动作。

4.2 企业使用者部分

企业使用者实现注册,形成用户之后能够实现的动作包含最近的招聘数据的给出,监管企业的招聘数据给出,搜素求职人员数据。该部分能够实现的性能包含,监管企业基本数据,管理招聘数据,监管求职人员数据,搜索职位,企业能够将基本数据修改后,譬如公司的名称,性质,地点,时间,注册金额,联系模式等,公司能够将营业执照等数据进行上载。公司给出的招聘数据能够采用该平台随时给出,并且公司依照自身需要针对简历实现选取。

4.3 企业管理员部分

整个部分针对网路给定一个模式,监管人员在整个模式中实现以下动作,监管个人会员数据,监管企业会员数据,给出招聘数据,求职简历核实,信息的数据排布。会员数据监管能够使用该部分实现信息的搜索,删除;招聘数据监管能够采用该部分实现简历审核;网站数据监管则采用该部分实现新闻数据修订;系统监管则能够采用该部分进行信息解析。

4.4 数据库构建

数据库构建应当包含命名的准则,信息的完整性,信息的一致性以及数据库中的信息类型的获取。此外,本文给出概念模式构建,包含WEB招聘信息管理系统的主体部分包含个人会员数据,企业会员数据,监管数据,求职人员简历,公司职位,招聘数据,应聘数据,审核信息,新闻信息等。

说明:applicant_id即应聘者ID设置为应聘者信息表recruiter Table的主键并且设置成自增长,applicant_display即应聘者标识设置成默认值为1。

说明:information_id即留言ID设置为留言信息表feed back Table的主键并且设置成自增长,recruiter_id即招聘者ID和applicant_id即应聘者ID设置为留言信息表feedback Table的外键。

5 本文总结

本文主要实现了WEB招聘数据监管平台,本文相关技术介绍,包含B/S架构,数据库策略。进而给出系统需求解析,包含技术可行性,经济可行性,操作可行性。进而给出系统整体设计,包含系统的运行状况以及网络模式,系统的整体性能构建,此外,给出系统各部分设计,包含个人用户部分,企业使用者部分,企业管理员部分以及数据库构建。

摘要:采用网络招聘模式,能够使时间和空间变得不再被约束,公司不需要被寻纳人才资源所忧伤,应聘人员也不再疲于奔命。文章构建了WEB招聘数据监管平台,并对相关技术介绍,包含B/S架构,数据库策略。进而给出系统需求解析,包含技术可行性,经济可行性,操作可行性。进而给出系统整体设计,包含系统的运行状况以及网络模式,系统的整体性能构建,此外,给出系统各部分设计,包含个人用户部分,企业使用者部分,企业管理员部分以及数据库构建。

关键词:网络招聘,WEB招聘,B/S架构,数据库,系统需求解析

参考文献

[1]樊胜.C/S与B/S的结构比较及Web数据库的访问方式[J].情报科学,2015,19(4):443-445

[2]邝孔武著.管理信息系统分析与设计[M].西安:西安电子科技大学出版社,2015:26-32.

实时数据Web发布技术研究 篇5

随着管理扁平化, 精细化的发展, 管理对于生产信息提出了更高的要求。原来仅仅局限于车间、工厂内部的生产实时信息必须实现其数据共享, 以满足更大范围的生产综合管理需求。

2. 现状分析

传统的自控系统是一个自成体系的封闭系统, 不与外界有任何的数据共享。但随着信息技术的发展和管理对数据共享的需求, 现在大多数组态软件都具备Web发布功能。其中, 大部分是以控件形式发布, 把传统的组态功能做成一个大的控件, 浏览器下载控件, 实现web发布功能。其中大部分国内组态厂商是以这种方式实现其web发布功能。还有些软件是依赖一些特定的运行环境, 如Share Point, 等等。

但是, 这些都还不是主要的问题。最核心的问题是在于, 目前所有的组态软件的Web发布是不为用户所控的。也就是说人家有什么功能你就用什么功能, 而不是你要什么功能就有什么功能。而管理系统软件的功能可控性是生产管理软件所必需的。

3. 研究目标

我们所研究的问题已经超出了传统工业控制领域, 而应该定位于工业控制和管理信息系统结合的综合应用。

如何实现自控数据的安全共享;如何将自控数据融入MIS系统, 开发出用户所需要的管理系统;这些是本文讨论和解决的中心问题。

4. 系统设计

4.1.实时监控架构

4.1.1.分布式构架设计

生产数据采集系统的目的是利用现场监控系统, 实现数据源头自动采集, 自动加载到实时数据库, 为各管理部门应用提供开放的数据平台, 使生产和管理人员及时控制和掌握生产动态, 从而实现整个生产过程的自动化;并可以对取得的实时数据进行统计、分析、优化, 从而为生产调度、生产监控提供重要依据。

本系统的逻辑架构, 其实时监控部分采用分布式SCADA系统设计思路, 整个系统由总站系统和分站系统构成组成一个分散的工控网络, 总站系统包括实时数据库、WEB服务器和工程师站, 分站系统安装在各数据采集点, 由OPC网闸和接口机组成。

整个系统的数据来源有两个方面, 一、部分系统有SCADA系统, 可以通过OPC接口向实时库提供数据;二、部分系统MIS或GIS系统提供的实时数据;可以通过实时库的ODBC、OLEDB接口向实时库提供数据。

4.1.2.数据通道的安全设计及分站接口技术

如何从各SCADA系统中安全地提取数据是整个项目成败的关键, 在此涉及两个方面, 一是采用何种数据传输协议, 二是SCADA对安全性要求是很高的, 在设计中, 必须保证生产网与办公网是安全隔离的。

OPC协议在工业控制系统中是一种标准协议, 绝大部分工业控制系统都支持这种协议, 由于不同厂家的软件系统, 情况比较复杂, 采用这种协议是一个比较好的选择。无论SCADA系统采用哪个公司的产品, 只要支持OPC协议, 就可以实现与接口机的数据交换。

为了保证SCADA系统的安全要求, 在本设计中采用了OPC协议网闸, 实现生产网和办公网的安全隔离, OPC网闸是从单向网闸发展而来的, 它可以对所有数据包进行解析, 并只允许符合OPC协议的数据包通过, 病毒、攻击是无法通过的。

4.1.3.分站接口机

从理论上讲, 总站的实时数据库可以直接从SCADA系统中提取数据, 但这种方式将整个系统数据传输压力全部交给了SCADA系统, 大型企业, 其内部各单位采用的系统不同, 网络环境不同, 在总部层面, 系统很难实现统一的管理。另外, 由于总站系统与各分系统的差异, 在网络中断回复后, 根本无法实现断点续传。

也正是出于这两个方面的考虑, 在本方案中, 在各子结点, 安装一台接口机, 接口机实现与SCADA系统的数据通讯, 并同时将数据转发到总站实时数据库, 在网络中断的情况下, 可以实现本地保存, 在网络恢复后, 还能够实现历史数据的转储。

4.1.4.实时数据库设计

实时数据库是生产自动化系统的动态实时数据仓库, 是该系统设计中最重要的部分。因此要求数据库具备数据存取的实时性、数据的安全性、数据库的开放性, 保证数据快速存取和处理的需要。

在整个系统中, 实时数据库除了具备应用系统的数据仓库功能以外, 还包括如下几个方面:动态监视、历史数据统计分析、远程管理与调度。

这些功能通过WEB服务的方式将所关心的曲线、现场模拟图片、数据等发布给应用服务器, 在应用服务器内与GIS系统整合后, 再以WEB方式发布给各处室用户。这种方式可以最大限度的发挥实时数据库的特有功能, 降低应用系统的开发难度。

4.1.5.工程师站

从某种意义上来讲, 本方案中的实时数据监控系统与生产用工控系统是有一些差别的, 在这个系统中, 不需要操作员站, 这套系统完全可以看做一个后台系统, 其前台表示在应用服务器中实现, 但从构成来讲, 仍然可以看做一个比较独立的系统, 它具备普通SCADA系统的大部分功能, 需要一个工程师站管理、更新、扩展实时数据库和分站接口服务器。

4.2.数据发布与整合

数据的发布分三个层次: (1) 数据层:实时数据服务器、关系型数据服务器。 (2) 应用层:组态Web服务器。 (3) 集成层:Web集成服务器。

系统打破了传统工控领域的web发布方式, 将实时数据、关系型数据、离散数据等结合在一起, 通过顶层的Web集成服务器完成了数据整合。

系统可以将实时数据库和关系型数据库直接作为数据源, 也可以直接调用组态软件的Web服务。而且实时数据库和关系型数据库之间可以通过接口进行数据转存。

4.3.总体架构

大致可分为六个层次:

(一) 基础数据层:

为数据的来源, 对应各结点及综合应用的数据源头。

(二) 接口层:

提供各种数据交换、传输的接口转换, 以达到数据统一。

(三) 网络层:

数据传输的通道, 同时为工控网络提供隔离保护。

(四) 数据集中层:

将各个单位各种数据集中管理、分类存储, 并可进行数据的统计、汇总等;同时提供实时数据、Oracle数据的交换接口。

(五) 服务层:

提供实时监控Web服务和应用服务。

(六) 应用层:

将监控Web服务、应用服务进行组织、封装, 以统一的服务提供给最终用户使用。

5. 结束语

以上我们讨论的是一种实时数据应用的方式, 我们不是否认现行组态软件的Web发布功能, 而是提出了另一种解决方案。这种解决方案已经在我们的项目中成功实施, 并取得了很好的应用效果。

这种解决方案适合于企业的上层应用、综合应用, 相比一般的实时数据Web发布具有较好的灵活性和可塑性。

参考文献

[1]Martin Fowler.企业应用架构模式.中国电力出版社.2004

[2]任作新.网络化监督与控制系统.国防工业出版社.2007

[3]Michael Morrison, Head First JavaScript.东南大学出版社.2008

Web数据挖掘研究初探 篇6

1 Web数据挖掘的研究背景和国内外现状

有统计指出,我国境内的Web站点已将近有200万个,全国现有网民3亿7千万人。网上的信息量已经远远超过人们的处理能力。Web站点每天都在发生着不断的变化,网上的内容在不断的扩大和更新。庞大的快速增长的数据中一定有许多有价值的信息,如何发现并利用这些信息变成了摆在我们面前的一道难题。现在利用数据挖掘技术与Web技术相结合形成Web挖掘,就是用来解决这个难题的有效方法。

2 Web数据挖掘概述

数据挖掘是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式。数据挖掘是一种综合了数据库、人工智能以及统计学等多个学科技术的信息处理方法。通过对历史积累的大量数据的有效挖掘,试图从这些数据中提取出先前未知但有效和有用的知识[1,2]。

web挖掘是Web数据挖掘(Web Data Mining)的简称,也可以被称为Web知识发现(Web Knowledge Discovery),他是在数据挖掘的基础上研究发展而来的,是数据挖掘技术在Web技术中应用的体现。Web挖掘技术涉及众多学科的知识,如数据库技术、网络技术、统计数学、人工智能等,是一个交叉性的研究领域。[7]

数据挖掘所需要的丰富的信息资源其实就蕴藏在Web中。Web中蕴藏了许多丰富和动态的超链接信息以及Web页面的访问和使用信息。而Web挖掘的主要工作就是从Web文档和Web活动中发现并取得感兴趣的潜在的有用模式和隐藏信息。

3 Web数据挖掘的分类

Web数据挖掘可以被分为Web内容挖掘(Web Content Mining)、Web结构挖掘(Web Structure Mining)、Web使用记录挖掘(Web Usage Mining),这三大类。这三大类在实际使用过程中并不是独立使用的,而是相互联系、相互交叉和相互渗透的。关系如图1所示。

(1)Web内容挖掘

从Web页面文档内容及后台交易数据库中发现有价值信息的过程称为Web内容挖掘。其实Web内容挖掘我们可以理解为是从浩瀚无际的Web资源中发现信息、取得信息或资源的过程。Web内容挖掘发现Web资源中的有效数据的方法是先对Web网页上的内容做资料挖掘,然后对Web的资源实行自动检索。Web资源的形式是丰富多样的,Web上的资源内容主要包括网络页面上的内容信息和页面后台在数据库中发生的交易记录等。页面上的信息是非常丰富的,它包括文本、动画、超链接、图片、音频/视频之类的多媒体数据。Web内容挖掘主要使用两种方法:Web页面内容信息挖掘和搜索结果再次挖掘(即对初步搜索或挖掘的结果作进一步的改进挖掘处理)。

(2)Web结构挖掘

WSM(Web Structure Mining)是Web挖掘中的一个重要分类方向,它的主要工作方法是通过研究和分析各个网络页面之间的结构信息,从而找到隐藏在页面内容之外有价值的信息的过程。

网页正文,网页所含的超文本标记以及网页间的超链接,这三个部分组成了Web页面中的有效信息。其实实际上,仅仅网页之间的超链接,并不能代表Web的结构:

从广义上讲,Web的结构包含有:

(1)URL字符串中的目录路径结构信息;

(2)网页内部内容的可以用HTML、XML表示成的树形结构;

(3)网页之间的超链接结构。

Web结构挖掘涉及到海量的计算信息数据,怎样解决大量信息数据和有限的计算存储空间之间的矛盾,怎样提升数据挖掘算法的效率和实时性将是一个有待大家继续深入探讨研究的问题。

(3)Web使用记录的挖掘[3]

网络上的原始数据是Web内容挖掘、Web结构挖掘的对象。但是Web使用记录的挖掘则却和前两者并不相同,它是对web上第二类数据即Web日志数据及相关数据的挖掘。Web使用记录是通过挖掘Web访问记录发现有价值的数据,提取感兴趣,有价值的模式。

通过分析这些信息数据,我们可以理解并且分析用户的行为,从而发现电子商务的潜在客户,帮助我们不断地改善Web站点的结构或为用户提供个性化的服务,并且对Web服务器系统的性能进行改进。

Web使用记录挖掘应用的技术主要有路径分析、关联规则分析、序列模式分析、聚类分析、统计分析等。Web使用记录挖掘可以发现潜在的用户、改进电子商务网站的建设,增加个性化服务等。

这方面的研究主要有两个方向:一般访问模式挖掘和个性化的使用记录挖掘。

4 数据挖掘的主要技术

数据挖掘技术是多个不同学科领域的技术与成果结合的成果,现今的数据挖掘技术主要有人工智能、数据库技术、概率与数理统计三个主要方面。以下是几种比较常用的技术:

(1)关联分析

关联分析是指如果两个或多个事物之间存在一定的关联,那么其中一个事物就能通过其他事物进行预测[7]。它的目的是为了挖掘出隐藏在数据间的相互关系。从大量的数据中发现其关联知识在市场定位、决策分析和商业管理等领域是极为有用的。例如,网络中的电子商店收集存储了大量的客户销售数据,这些数据清晰地记录了每个客户的购买事务;比如交易的受理时间、顾客选择购买的物品、物品的数量及金额等。商家可以通过利用这些数据使用关联分析知道每个顾客进入电子商场购物时,商家想知道的是顾客会购买哪些商品?除了这个商品以外还会买什么,它们之间的联系时什么?购买这些商品的顾客有什么共同的特点?通过得到的这些信息可以很好的帮助店家,制订出针对商品和顾客管理的一系列商业决策,从而提高销售额。

(2)聚类分析

数据库中的数据可以规则分为一系列有意义的子集,称为聚类。将由聚类所生成的一组数据对象的集合,他们之间的相似度比较高,每一个个体之间的;离得较近;不同组中的对象差异较大,个体之间距离则较远。在实际情况的使用中,可以根据已有顾客的数据,可以利用聚类分析将掌握的客户数据根据客户之间的共同特点来细分的市场,比如追求相似利益的人群、具有相同爱好的人群、相同年龄层次的人群、相同收入水平的人群、相同职业特征的人群等等,制定正确的市场策略,使企业在如此激烈的竞争环境中取得有利位置。

(3)神经网络

神经网络的工作原理是对人类大脑思维系统的一个简单的结构模拟。人脑神经元的基本功能是多个神经元连接而成的多层网络模仿而成。神经网络是仿照生理神经网络结构建立的非线性预测模型,通过学习进行模式识别。正是它的出现为许多传统信息难以解决的问题提供了一种较为简单有效的方法,所以近年来人工神经网络技术得到不断成熟和发展。

(4)分类分析

数据挖掘中应用比较频繁的方法就是分类。分类是找出一组类别,能够描述数据集合典型特征的模型,它具有此类数据的共同特点,可以用它来分类识别未知数据的归属或类别。

分类一般用于预测有限离散值。但某些情况下,需要预测某数值属性的值(连续数值),在这种情况下分类就称为预测。

(5)决策树

决策树从它的名字就不难发现它的结构就像一棵树。它利用树的结构将数据记录进行分类,是一种预测模型。决策树分类方法是一种通过构造决策树来发现训练集中分类知识的数据挖掘方法,其关键是能够构造出规模小、精度高的决策树。例如,我们要分析一个公司的客户接受某项新产品的情况,我们可以从中选取50个客户,其中25个愿意接受并购买这个新产品的,25个不愿意接受并购买这个新产品的。我们通过建立决策树的方法来来分析客户的情况,并从中分析和寻找到一些潜藏的规则信息,然后帮助企业销售。

5 结束语

该文讨论了Web数据挖掘的基本概念、基础工作原理和所使用的关键技术。在未来随着电子商务的迅速发展,Web数据挖掘有了更广阔的舞台。Web挖掘技术能够帮助我们发现一些与用户检索的关键词密切相关的有价值网页,从而实现个性化检索。它可以帮助商家发现和获取客户,对商家的市场策略进行调整和改进,并对其进行正确的决策指导,促进电子商务的发展。

摘要:随着大型数据库的不断涌现,不缺数据缺知识的矛盾日益突出。大量web信息中获取有用的信息是web数据挖掘的关键问题。该文重点探讨了Web挖掘的基本原理和关键技术,针对Web挖掘的分类进行了描述,论述了Web挖掘的挖掘流程、应用领域及研究发展方向。

关键词:数据挖掘,Web数据挖掘,Web内容挖掘,Web使用挖掘,Web结构挖掘

参考文献

[1]L Wu,P.S.Yu,A.Baliman.Speed Tracer:A Web usagemining andanalysist001.IBM Systems Journal,37(1):89-105,1998.

[2]N.Good,B.Schafer,J.Konstan,A.Borchers,B.Sarwar,J.Herlocker,and J.Riedl,(1999).Combining Collaborative Filtering With Person al Agents forBetter Recommendations.In Proceedings of the conference,439-446.

[3]韩家炜,孟小峰,王静,等.Web挖掘研究[J].计算机研究与发展,2001,38(4):405-414.

[4]Jiawei Han and Micheline Kamber.Data Mining:Technique and Concepts,Morgan Kaufmann Publishers,2001.

[5]李凤慧.面向电子商务的web数据挖掘的研究[D].山东:山东科技大学,2004,6.

[6]Jiawei Han,Micheline Kamber.数据挖掘概念与技术[M].范明,孟小峰,等,译.北京:机械工业出版社,2001.

web数据库设计分析 篇7

1 Web数据库系统的体系结构

数据库系统的体系结构是涵盖了系统硬件、软件以及语言和算法的综合性概念, 具体指的就是组成计算机系统的各部分之间的相互关系。对Web数据库系统结构的研究主要就是对其硬件分布及软件功能分配方面的内容。一个逻辑性清晰、开发容易和便于维护的数据库系统的建立必然是以一个统一的体系结构为指导, 同时还要对系统的软件功能分配及硬件分布进行科学的规划。

数据库系统体系结构是随着计算机模式的改变而不断的改变, 与计算机体系结构有着紧密的联系。伴着计算体系的集中模式和C/S模式以及三层C/S模式的演变, 数据库体系结构也历经了集中式的主机结构和C/S结构以及多层的C/S结构演变。

2 Web数据库应用编程模型

Web数据库经过两种技术的结合, 需要解决的就是各个模块之间复杂的信息传输交换方式以及对于数据库的管理和运行, 另外还有在设计应用编程中模块和层次间的衔接和整合中存在的问题。

2.1 MVC模型

不管是什么样的应用程序都需要对相关的流程进行控制, 根据这些就能够总结出常用的设计模型, 在MVC模型中应用程序由三部分组成:模型:是程序的核心逻辑, 面对应用领域的抽象对象, 对其传输的信息要求进行检索和浏览, 实现完成业务的目的。视图:这部分主要是面向用户的应用程序, 负责用户与数据库应用程序的链接作用。一方面, 视图能够为用户提供所需要的信息输入方式, 并能够将需求以最快的速度传输给逻辑应用领域;另一方面, 在传出形式上, 将逻辑结果以一定的方式呈现给用户。控制:就是将逻辑程序与视图之间进行模式切换, 方便两者的信息数据接收和传出。一方面, 能够将视图传来的信息进行解读, 以一种系统能够接受理解的方式传送出去;另一方面, 将逻辑结果和模型的转变的执行进行处理, 反馈给用户。

针对MVC模型应用程序的优化设计, 包括对用户界面、流程控制以及逻辑方面的设计, 将各部分进行分离, 然后设计开发出个部分之间的接口, 根据不同部分的主要功能, 选择最合适的接口技术进行开发设计, 最终形成完美结合, 突出模型的技术细节和重要功能。

2.2 Web数据库应用系统设计开发中存在的问题

Web数据库的设计开发主要包括三个方面, 分别是网页的设计、业务逻辑的设计以及数据库的管理设计。这些实际都是由多个开发人员应用不同的技术来结合成一个完整的程序的, 所以编程技术很多, 对应的客户的主机也要进行不断地升级才能够接受高功能的程序逻辑。在开发Web数据库的应用程序时, 要考虑到运行速度、效率以及逻辑功能等多方面问题, 同时各种技术自身都存在一定的不足, 如果只采用一种技术来连接Web数据库各部分之间的接口会带来很大的运行困难, 所以需要采用多种技术共同设计开发, 保证Web数据库的高效率运行。

目前的Web数据库存在的种种问题, 主要是编程模型的开发问题, 从而造成的网页、逻辑和数据库之间的交流不顺畅。在设计开发的过程中引用系统、合理有效的编辑模型, 要求设计和开发人员务必按照一定程序来对各部分接口进行独立的设计和开发维护, 并保证不影响整体之间的交流和链接。

3 Web数据库的安全性设计分析

在对Web数据库进行设计的过程中首先需要对其工作环境进行最优化的系统安全配置, 进而有效避免非法人员对Web站点的攻击, 其具体包括了对操作系统、相关服务器的安全配置, 只有将相关工作有效的结合起来, 才能为Web数据库的建立提供一个安全的工作环境。

3.1 服务器的安全配置

对系统不同层次的运行环境要提供出具有较强针对性的安全机制。 (1) 操作系统的安全设置及措施。在用户进行使用系统之前首先需要做的就是登录, 对于一些不能成功登录的用户, 系统禁止其使用服务器的一切资源;对系统所有的默认账号和密码进行删除, 同时限制用户尝试登录系统的次数;将系统磁盘设置为只读模式;对于系统中一些重要的目录要进行及时的备份, 避免丢失;对用户的硬盘使用空间进行限制;对于允许访问系统的用户, 对该用户资源访问权限进行设置。 (2) 数据库的安全设置。Oracle的安全模式设置为标准的安全模式, 设置用户只能通过登录ID号以及相关口令进行数据库服务器的访问;对不同的用户在数据库的管理系统中给予不用的用户名设置;同时赋予不同的用户不同的权限;对系统中的用户名和对应口令进行定时的更改;定期的对应用程序中的用户进行审计。

3.2 数据库应用程序的安全性设计及实现

对于服务端的应用程序采取了以下几种安全性措施, 如下所述: (1) 程序连接数据库的应用, Oracle中对数据库的连接用户进行用户名的设置, 并赋予其相应的访问权限。同时在应用程序中设置了用户的登录名和登录口令。在应用程序进行数据库链接时, 利用系统赋予的用户名和口令方能进行数据库的访问, 随后实现Oracle原有的全部用户以及管理权限才能得以实现。具体实施方案:对于每一个数据库的应用程序设置一个相应的数据库账号, 该账号对所有的数据信息都具备了操作的所有权限。另外, 这对于系统的操作人员还需要创建一个系统账号。这样一来, 当用户在访问数据库时, 必然会以真正的数据库账号进行登录, 然后是相关登录程序的执行过程。这一安全体系直接造成的结果就是整个应用系统成为了数据库的直接用户, 而系统的所有操作人员却成为了数据库的间接用户。也就是应用系统在完成了相应的逻辑基础之上, 还彻底的分割开了数据库和系统用户, 为数据的安全提供了一道坚固的“防火墙”。 (2) 有效的增强用户的授权机制。在系统中不仅对Oracle的数据用户采用了授权机制, 对系统账号也采用了手段机制, 在上述的安全体系中, 应用程序有效的为数据库和用户之间提供了一道安全防火墙, 这对应用程序本身的要求就需要具备足够的安全特性。由于用户授权管理机制的严密性将对整个系统的安全将产生直接的影响, 所以强化用户授权机制就显得尤为重要。本文研究的系统中将整个系统根据其功能特性将其划分为了多个最小的权限单元, 这些单元同时都具备了可分配的特性, 单元权限主要也就表现在了对数据库相应表格属性以及视图文件的操作等内容的划分上, 然后再有效的结合相关系统操作人员的工作性质, 运用工作组或角色的概念, 完成了应用系统账号基本等级的创建工作, 如根据等级的不同可将用户分为普通游客、初级会员、高级会员等, 同时赋予了不同等级的用户群不同的使用权限, 由此以来使得系统权限管理工作得到了有效的简化。为了使系统安全管理的灵活性有效提高, 对系统某一等级的用户的权限, 授权管理模块需要做进一步的限制工作, 以实现所有权限均能达到任意组合的应用效果。除此之外, 为了保证相关管理工作人员工作效率的有效提高, 对所有的系统权限和每一种等级的用户群体以及不同用户所对应的不同组合权限, 建立一部完善的数据词典, 为的就是能够保证在任何一种工作环境下, 工作人员都能够方便的对用户等级进行添加或者对不同等级的用户权限进行修改等操作;为了能够有效的限制某一系统应用账号的继续使用, 该系统还需要设置相应的账号封锁或解冻的功能。 (3) 系统的审计和检测。系统的检测和审计工作对整个系统的安全稳定具有重要的意义。系统中的日志系统具有良好的数据库操作数据的采集以及记录功能。日志系统能够有效的记录某一用户在登录系统直到退出系统这一访问时间段内的所有操作, 包括了用户在登录过程中的失败操作以及在成功登录系统后所执行的增、删、查、改等一系列的操作行为。日志记录的内容还包括了用户的IP地址以及名称、操作类型及操作对象等多项内容。为充分保证系统的安全性和稳定性, 系统管理工作人员就需要对日志记录的文件内容进行必要的审计和检测工作, 及时的找出系统中存在的不安全因素, 并做出及时的处理。

4 结语

近几年来, 随着网络信息铺天盖地的传播, 人们对信息的及时性和有效性的要求越来越高, Web技术的静态网页内容已经远远满足不了人们对于信息的追求。本文将数据库技术与Web技术完美设计结合, 实现了全球信息资源的交流和共享, 促进了各行业的迅猛发展。同时Web数据库的设计成功, 也激励了企业单位的创新精神, 建立自己的Web数据库系统以积极适应信息的快速发展。

参考文献

[1]王小影.基于物联网的Web信息数据库系统的设计与分析[D].北京邮电大学, 2012.

[2]叶露阳.基于Web的学生管理信息系统的分析和设计[D].厦门大学, 2014.

Web医疗咨询数据 篇8

尽管因特网为我们带来了良好的发展机遇,但它也使我们迎来了不小的挑战。例如,使万维网中Web服务、Web站点导航的设计、Web站点设计、电子商务、Web服务设计等主要工作变得更加复杂。如何提高用户的访问频度、访问兴趣与访问时间等是需要关注的重点,因此,利用基于Web数据库的数据库挖掘技术进行信息的挖掘就显得尤为重要[1]。

1. 以Web数据库为基础的数据库挖掘技术的概念

1.1 基于Web数据库的技术

使用数据库和Web技术两者结合进行动态Web数据库应用的开发已经成为了网络时代中Web技术的研究热点。Web数据库的系统是指利用Web技术和数据库之间进行连接,并通过此种方式来产生以数据库为基础的动态页面,进而为客户在不同的地域内进行操作提供方便,让远程监控得以实现。不难发现,Web的数据库技术是数据库技术和网络计算机技术的综合产品,在数据库系统中管理与存放的大量信息都可以为用户提供访问,它能够实现许多不同数据库的服务器中各类信息资源的整合与组织[2]。

1.2 数据库挖掘的概念

数据库的挖掘就是指将可理解的、有效的和有潜在用处的模式信息资源从大量数据中分析提炼的过程。需要注意的是,并非所有数据库的信息发现都能够被称作数据挖掘。例如,通过数据库的管理系统进行个别记录查找的工作,只能划归与信息的检索领域。随着理论数学的不断进步,数据库的挖掘技术也得到了相应的提高。数据库挖掘技术领域在对人工智能、模式识别和统计学技术等基本理论与搜索建模的技术进行充分利用的同时,也将进化计算、可视化、最优化和信息论等学科内的观点进行了总结性归纳和推理,并从中探索出数据间所存在的潜在关系,进而为信息传递的促进提供了基础。

2. 以Web数据库为基础的数据库的挖掘方法

2.1 覆盖正例的排斥反例法

覆盖正例的排斥反例法是指按照对所有反例进行排斥或对所有正例进行覆盖的思路进行规则的寻找。在使用此方法时,首先要随意选择正例集合当中的一个种子,之后依次与反例集合中的种子进行比较,最后把能够和字段取值选择构成子相容的种子去除,将和其相反的保留下来并根据此类方法对所有正例的种子进行循环,最终才能够获得正例的规则。

2.2 粗略集合方法

尽管粗略集合的方法所得到的信息并不精确,但这种方法依然有对输入信息运算与表达方法简单、便于进行操作、无需额外的信息资源等优势。但需要注意的是,对于其处理对象而言,通常都是近似二维关系的资源信息[3]。

另外,尽管不断健全和发展的数据库的管理系统为粗略集合方法的挖掘数据库技术创造了前提条件,但由于其基础是数学中的集合论,所以对连续属性的信息很难直接进行处理,而在实际数据库内连续属性的信息表是很常见的,因此,要将粗略集合方法应用与实际的操作当中还是存在一定困难的。

2.3 模糊集合方法

此类方法指的是使用模糊集合的理论对实际中产生的问题进行模糊的评判、分析、识别和决策。通常而言,系统复杂的程度越大,模糊性就会越高,因此,许多模糊集合的理论都会使用隶属度对模糊事物的属性进行刻画。

2.4 统计的分析方法

一般数据库中的字段项间都存在相关关系与函数关系,因此当在对其进行分析时就能够使用统计学当中的分析方法,对数据库内的资源信息利用有关的统计学原理进行分析。除此之外,在进行资源信息分析时还可使用回归分析、差异分析、常用统计和相关分析等四种方式。

3. 以Web数据库为基础的数据库的挖掘技术

3.1 技术的分类

3.1.1 Web的结构挖掘

此类技术主要是指从万维网的链接关系与组织结构中对知识进行推导。鉴于文档间相互连接的万维网可以供给除文档内容外的其他有价值的信息,因此,利用此类信息可以将页面重新进行排序,进而寻找到重要页面。另外,在多层次的Web数据库系统中也可以利用页面链接的结构。

3.1.2 Web的使用模式挖掘

对于此类挖掘技术而言,其主要目的是将Web访问记录中用户感兴趣的模式抽取出来。在万维网中,由于每台服务器都会对用户的交互与访问信息记录并保留访问日志,所以通过对此类数据的分析与挖掘可以有助于理解用户的行为,从而为提供用户个性化服务和站点结构的改进提供依据。

3.1.3 Web的内容挖掘

Web的内容挖掘主要是指通过文档的描述或其内容的描述而对知识进行抽取的过程。例如以概念索引为基础的资源发现和以代理为基础的技术都可以归纳与此类方法当中。

3.2 种类的分类

以Web数据库为基础的数据库的挖掘可以依照用户对Web数据的兴趣程度差异分为:网络用法的挖掘、网络结构的挖掘和网络内容的挖掘。

在上述三种分类中,网络用法的挖掘的对象与后两者不同,其面对的主要是用户与网路交互过程内所包括的如代理服务器的日志记录、用户简介、用户交易或对话信息、注册信息、网络服务器的访问记录、用户的提问方式、浏览器的日志记录等一系列可以进行抽取的数据。

通过此种分类进行挖掘,对于了解用户在网络行为中的数据具有重要且现实的意义。

3.3 挖掘的步骤

通常情况下,以Web数据库为基础的数据库的挖掘可以分为资源查找、信息的预处理与选择、模式的发现和模式的分析等四个步骤。

3.3.1 资源查找

在此步骤中,主要任务是以目标的Web文档为基础并从中取得数据。需要注意的是,信息的资源有时并不仅仅局限于在线文档,而且还包括电子文档、电子邮件、网站日志的数据、新闻组或以Web为基础的交易数据库中的内容[4]。

3.3.2 信息的预处理与选择

其主要任务是讲已经获得了的资源中所包含的无用信息进行剔除,同时同抽取出的信息进行大致整理和归纳。例如去除多余的格式标记、自动识别的字段或者段落、广告链接等杂质,之后再把数据进行逻辑形式的归整与组织。

3.3.3 模式的发现

此步骤中可以进行自动的模式发现,其范围可以是在多站点或同一站点内部进行。

3.3.4 模式的分析

模式的分析步骤主要是为了解释、验证模式的发现步骤中所产生的模式。其工作方式既可以由人员间的交互完成,也可以由机器自动完成。

4. 以Web数据库为基础的数据库的挖掘技术应用分析

4.1 应用于网络教育领域

随着新课标概念的产生,教育也正逐步向网络化方向发展。它不仅有利于学校对学生的具体要求进行深入了解,而且还提供了更为便利的学习方式。与传统的教学模式相比,网络教学同样需要根据不同的受教育者特点,制定与之相适应的教学方案。所以,充分利用Web数据库和数据库的挖掘技术,从活动和Web文档中对潜在有用或学生可能感兴趣的模式与隐藏信息进行选取,才能更好的达到为学生提供良好的网络教育服务的目的。

4.2 应用于网站设计领域

在对网站进行设计时,使用数据库的挖掘技术来挖掘网站的内容,特别是文本的内容,可以更好的进行网站信息的组织与规划。通过挖掘网络用户访问的记录,可以更好的了解用户对于兴趣的信息,从而可以使网站有效的开展个人的信息定制、网站的信息推广等活动。

4.3 应用于电子商务领域

在电子商务领域中,可以充分使用数据库的挖掘技术挖掘企业客户所访问和关注的信息,之后可以按照所收集到的信息对客户分类,并对分类中客户的特征与兴趣进行分析,从而让企业能够更深入的了解客户的资料,以此做到对客户提供适合其特点的服务。另外,利用此类技术不仅可以保证客户在网络中停留的时间,而且还能够为企业发现潜在的客户资源,进而为企业利润空间的提升提供保障。

4.4 应用于搜索引擎领域

对于搜索引擎领域而言,以Web数据库为基础的数据库的挖掘技术是当前发展中的关键因素。由于大多数人常常会通过使用搜索相关的网页等方法进行信息获取,因此对搜索引擎领域的挖掘可以有效的实现对网页的划分与归类,进而实现分类网络信息的检索和浏览。另外,运用Web挖掘技术中关键词改进加权算法等方法,也能够达到改进搜索效果、提高网络的消息准确度。

5. 结语

作为当前环境中最大规模的信息库,Web数据库为数据挖掘的技术的发展提供了必要的前提和大环境中的条件。以Web数据库为基础的数据库的挖掘技术不仅提高了信息检索时的准确性,而且对网络教育、网站设计、电子商务以及搜索引擎等领域进行个性化服务的发展方向和未来趋势具有十分重要的指导意义和现实意义。

参考文献

[1]Jiawei Han,,Micheline Kamber.DataMining:Concept and Techniques.2009.

[2]鲁俊,孙永鸿.基于电子商务应用的Web数据挖掘技术研究[J].电脑知识与技术.2009.

[3]居晓琴,周学全.Web数据挖掘技术探索与应用[J].山东纺织经济.2009.

Web数据库系统安全研究 篇9

Web数据库是指将数据库技术与Web技术相融合, 使数据库作为Web的重要组成部分的数据库。Web数据库集合了Web技术和数据库技术的优点, 使二者都发生了质的变化。Web网页从静态网页发展成了由数据库驱动的动态网页, 而数据库实现了开发环境和应用环境的分离, 客户端可以用统一的浏览器实现跨平台的多媒体服务。

在传统的Web服务中, 文本和其他多媒体信息都是以文件的形式来进行存储和管理的。随着信息量的不断增加, 系统的速度受到越来越大的影响。同时因为Web的应用领域在不断扩展, 静态的Web页面越来越不能满足人们对Web上信息服务的动态性、实时性和交互性的要求。另一方面, 数据库技术经过几十年的发展, 其功能越来越强大, 各种数据库系统如:Oracle.Sybase, Informix, SQLSever等, 都具有对大批量数据进行有效的组织和和快速的查询检索功能。为了进行网络上数据的高效存取, 实现交互式动态Web页面, 就必须以大量数据资源为基础, 因此必然要在Web中引入数据库。Web技术和数据库技术的结合不仅把Web和数据库的所有优点集中在一起, 而且充分利用了大量己有的数据库信息资源, 可以使用户在Web浏览器上方便地检索和浏览数据库的内容, 这对许多软件开发者来说具有巨大的吸引力。所以Web技术和数据库技术相互结合领域的研究成为目前数据库技术的热点方向之一。而开发基于Web数据库系统的动态网站已经成目前数据库技术的热点方向, 而开发基于Web数据库系统的动态网站己经成为Web技术研究的热点。

1 现代信息系统面临的挑战

新世纪之初, 社会信息化的进程明显加速, 计算机、网络、大规模的信息系统, 使得社会在高度信息化的基础上高度自动化, 同时也就导致对信息系统的高度依赖, 依赖程度越高, 信息系统和安全问题的严重性就越大, 与早期的信息系统相比, 现代信息系统面临着更严重的挑战。

1.1 信息存放的分散化

PC机和工作站的大量使用造成了信息分散的局面。PC机和工作站都有存储空间, 大量信息存放在PC机和工作站上, 给信息安全带来极大的隐患。

1.2 信息处理的网络化

大量的内部局域网系统与Internet联网形成了信息处理网络化的不可逆转的趋势。随着单位局域网与Internet联网, 内部系统暴露在外部世界面前, 虽然有许多系统安全和网络安全的技术可以使用, 但用任何安全技术都是用程序实现的, 程序的错误和漏洞难以避免, 这就决定了任何安全技术都存在错误和漏洞。再加上安全管理常出现一些漏洞, 与Internet联网无法绝对避免给信息安全带来的潜在风险。

1.3 应用模式的影响

客户服务器、Internet, Intranet等应用模式的兴起加速信息存放和处理的分布化。客户机/服务器、Internet, Intranet等应用模式由于其灵活、效率高和成本低而大受欢迎。现在越来越多的应用采用客户机/服务器、Internet、Intranet等应用模式。但是, 许多这样的应用虽然在功能上令人满意, 而在安全性上问题很多。

计算机系统或信息系统的安全技术同时涉及软件和硬件技术。在计算机使用的早期, 特别在微小或小型系统中、一般为系统加一道口令。而现在的信息处理系统中, 尤其是在网络环境下, 不仅要采用口令来进行基本的用户识别, 还要为不同实体进行标记, 在各个接口间进行验证等。

造成系统不安全因素有很多, 即有系统的稳定性或可靠性不定, 环境干扰或自然灾害等客观因素, 也有人员工作失误、操作不当等, 但对系统的安全影响最大的是人为的攻击破坏, 造成巨大的损失。

为降低进而消除对系统安全的攻击, 尤其是弥补在安全保护方面的缺陷, 在计算机安全技术方面逐步发展建立了一系列系统安全可信的标准。

2 数据库的安全问题

2.1 数据库系统的安全性

随着计算机在各个领域的广泛应用, 数据库管理系统担负着集中处理大量信息的使命。数据在计算机系统中的集中存放和管理的主要问题, 除了功能和性能方面的技术问题, 最重要的问题就是数据库中数据的安全问题。如何提供充分的服务, 同时又保证关键的信息不会被泄露出去, 这是信息安全系统的任务, 也是数据库系统的主要任务之一。

信息管理员 (DBA) 的一个重要责任是保证数据库的可靠性, 程序和过程在遇到机器故障、程序错误和人为错误是能够提供数据的可靠性。对于单用户和个人数据库来说, 没有这个要求。过程应能定期对数据库进行备份, 从而保证丢失的工作得以保存。

对多用户环境来说, 情况有些复杂。首先, 用户并发地处理数据库, 相互之间可能会有影响。此外, 故障发生的恢复也较复杂。简单的重新执行事务是不可取的, 这不仅是因为需要涉及手工工作的复制问题, 而且也因为再处理的结构可能与原来结构有所不同。如果这样, 在第一次处理时创建的结果与第二次处理的就不相同。

DBA为保证数据的安全可靠性所做的主要工作大致如下: (1) 创建用户和用户组并进行权限管理; (2) 制定备份或转储数据库; (3) 定期备份或转储数据库; (4) 发生故障时恢复数据库。

对数据库的攻击, 主要有直接攻击和间接攻击, 直接攻击比较好防备, 而间接攻击相对来说就困难多了, 一个数据库安全性的好坏主要体现早对间接攻击的防范策略上。可以采用有限制的响应封锁, 以及响应追踪等多种方法防范间接攻击, 有时为了某些数据的安全不得不拒绝服务或提供一些不准确的信息。

数据库安全问题主要集中在数据共享问题上。除了一般意义上的对数据资源的存取控制问题外, 数据库管理系统本身的可信度更是重要的问题, 同时数据库本身的可信度也直接关系到数据库的安全可靠。

(1) 数据库的完整性

一方面数据库管理系统要提供完整的约束条件来保证数据库中数据的正确性。另一方面, 由于数据库是资源共享, 必然存在并发操作, 而且可能会并发存取相同的数据。因此, 数据库管理系统应该能对并发事务加以控制, 保证数据的一致性, 相容性和数据库的完整性。

(2) 数据库的存取控制

保证数据库中数据的安全性, 主要依靠存取控制机制, 限制一些用户, 使其只能对数据库某些授权的子集进行存取或修改, 同时也限制非法用户对数据库的任何访问行动, 以免数据丢失或泄露。

(3) 备份服务器

在一些大型数据库 (VLDB) 中, 对数据及日志的有效存储和装载可以确保用户管理和操纵VLDB。备份服务器一般完成对数据的连接备份:联机备份、转储备份、异地转储。

(4) 安全服务器

对于安全性要求较多的行业, 安全服务器可以实现更强功能的安全管理:

(1) 符合标准符合NCSC B1级和ITSEC/E3 (B1) 级安全标准。

(2) 强化服务器安全性安全性在服务器被加强, 从而消除在客户端加强的需要。

(3) 受损存取支持在同一数据库 (甚至在同一表) 内存储在许多不同安全级别上的数据的受控存取, 取消昂贵的数据冗余。

(4) 访问控制支持自主访问控制 (DAC) 和强制访问控制 (Mandatory Access Control:MAC) 的强制安全性。

(5) 审计和检测提供用户对综合审计进行追踪的管理能力。

(6) 多级授权描述支持多级和单级用户。

(7) 数据监听服务器。

数据库监听服务器补充RDBMS已有的安全功能, 使企业可控制不同层次的审计和注册安全性, 实现登录安全和多种层次的审计控制, 并支持用户有效性验证和与场地有关的加密计算法。

2.2 数据库安全与操作系统的关系

数据库系统通常是在操作系统的控制下运行的。对于操作系统己经提供的安全措施, 数据库管理系统充分利用之。但是, 操作系统中操作的对象一般情况下是文件, 粒度较粗, 即使是审核用户这样的工作, 完全交给操作系统去做也是不够的。事实上数据库中的问题更为复杂, 例如用户不可能通过只读其他的文件而确定某文件的内容, 却有可能通过只读其他的数据库元素而确定一个元素, 也就是说用户可以通过推理的方法从某些数的值得到另外一些数据值。数据库管理系统为了满足应用的需求, 都必须自己审核用户。

3 网络安全问题

计算机网络一方面提供了资源的共享性, 通过分散工作负荷大大提高了计算能力, 并且还具有可补充性。也正是这些特点增加了网络安全的脆弱性和复杂性。资源的共享和地域的分布增加了网络受攻击的机会。要保证网络的安全, 必须要妥善解决两方面的问题:一是保护自己内部的网络免受外部的入侵;二是防止内部信息的泄密。防火墙是对付内、外部攻击主要屏障。最新的代理服务器或防火墙允许从机构内部向外部访问Internet上的资源, 而对于从Internet上对机构内部专用网络上的机构访问加以有效的控制。

3.1 防火墙技术

在网络边界上建立相应的网络通信监控系统以保障计算机网络的安全, 它是通过对网络作隔离拓扑结构来加强网络安全的, 最适合在企业的专用网中使用, 特别是在企业专用网与公共网络互联时使用。实现防火墙的技术有:数据包过滤、应用网关、代理服务。

(1) 包过滤技术

在网络适当位置对数据包实施有选择的通过, 只有满足过滤逻辑的数据包才被转发, 否则被禁止。利用包过滤技术可以防止黑客利用不安全的服务对内部网络进行攻击。

(2) 应用网关技术

应用网关是建立在网络应用层上的协议过滤和转发技术, 针对特别的网络应用协议指定数据过滤逻辑, 并将数据分析结果采取措施, 进行登记和统计, 形成审计报告。应用网关不允许不同类型的通信流通, 而且对每个应用采取专用的限制。该方法对每种应用都提供了专门的用户程序和用户接口, 因此工作量大, 不灵活而且效率低, 但比较安全, 通常由一台专用计算机来实现, 是内外网络连接的桥梁。

(3) 代理服务技术

代理服务是设置在Internet防火墙网关的专用应用级编码。包过滤和应用网关技术仅仅依据特定的逻辑检查来决定是否允许特定的数据包通过, 一旦特定的网络数据流满足这一逻辑, 则防火墙内外的计算机网络建立直接联系, 因而保留了防火墙外部网络系统直接了解防火墙内部网络结构和运行状态的可能。代理服务器技术是针对该缺陷的挽救措施。防火墙内外计算机系统应用层的链接由两个终止于代理服务器的让开的链接来实现, 外部网络链接只能到达代理服务, 由此实现了防火墙内外网络隔离, 代理服务器将被保护网络的内部结构屏蔽起来, 显著增强了网络的安全性能, 同时实现较强的数据流监控、过滤和报告等功能。并且由于每个网络服务专门设计、开发代理服务软件及其的监控、过滤功能, 并且由于代理服务器具有相应的工作量, 常需要专用工作站来承担。

3.2 数据加密技术

计算机网络安全技术中引入数据加密技术的基本思想是通过网络数据的加密来保障网络的安全可靠。因而这类安全保障技术是数据加密技术及其在分布式系统的应用。

加密技术用于网络安全通常有两种形式:一种是面向网络, 另一种是面向服务。面向网络的加密技术通常工作在网络层或传输层, 使用经过加密的数据包传送, 认证网络路由及其他网络协议所需要的信息, 从而保证网络的连通性和可用性不受损害。面向应用服务的加密技术的实现相对简单, 不需要对网络数据所经过的网络的安全性能提出特殊要求, 对电子邮件数据实现了端对端的安全保障。

3.3 网络安全一体化安全解决方案

防火墙型系统比较适合相对独立、与外部网络互联途径有限并且网络服务种类相对集中单一的网络系统。常见的Internet与Intranet的连接属于此类。但防火墙技术原理上对来自网络内部的安全威胁不具备防范作用, 并且常常需要有特殊的、相对较为复杂的网络拓扑结构来支持, 因而对网络安全功能的加强往往是以网络服务的灵活性、多样性和开发性为代价, 并且需要较大的网络管理开销。由于防火墙技术的实施相对简单, 因此是目前应用较广的网络安全技术。但防火墙技术的基本特征限制了它在大规模网络系统中应用的潜力, 并且由于它只在网络边界上具有安全保障功能, 其使用范围相对有限, 安全保障的程度也不易度量和保持在稳定水平, 因而防火墙所能提供的安全系统, 往往是针对有稳定需要而专门设计实施的安全系统, 是一类短期实用的解决方案。

以数据加密和用户确认为基础的开放型安全保障技术的特征是, 利用现代的数据加密技术来保护网络系统中包括用户数据在内的所有数据库, 只有指定的用户和网络设备才能对经过加密的数据进行解密。它不需要特殊的网络拓扑结构的支持, 实施代价主要体现在软件的开发和系统运行维护等方面, 在数据传输过程中不对所经过的网络路径的安全程度有所要求, 能真正实现网络通信过程中的端对端的安全保障。因而, 可以认为是一种比较好的网络安全问题一体化解决方案。

3.4 安全制度

网络安全除技术问题外, 缺乏安全意识和制度保障是另一个原因。除了选择合适的安全策略, 还要组织有效的安全体制:包括内部人员的安全教育。

4 结束语

安全系统总是在最薄弱环节遭到攻击, 所以一定要设计坚实的体系结构, 所有用户要坚持系统安全制度, 安全制度与系统体制结构相辅相成。用户是否具有安全意识是关系到系统安全性的一个很重要的因素。

参考文献

[1]查月华, 许建真, 胡建彰.基于防火墙的网络安全实现.有线网络.2002.6.

[2]李伦, 尹兰.一种改进的应用网关防火墙系统.计算机工程与应用.2003.5.

[3]王九明, 耿国华.网络数据库角色代理安全模型.控制工程.2002

上一篇:认知功能损伤下一篇:科技银行发展模式研究