树状人行系统

2024-05-01

树状人行系统（精选三篇）

树状人行系统篇1

关键词：模式识别,智能系统,树状模型

1 提出并建立树状模型

1.1 智能模型基态

首先, 通过与瀑布模型相仿的做法, 将个别数据结构通过一定方法合成一类模式能够识别的智能模型基态。其数据结构主要有以下几部分, 包括某一领域内的一类最基本模型单元, 也包括知识结构单元, 其所形成的知识数据库就好比广义树状模型的初等原型。基于模式识别或人工智能模型是由数据结构为主要构成, 且算法精炼简洁这些特性, 故以上任何一类系统有关的算法模式都可通过原型加以达成。通过个别最基本的模型单位生成的基础领域模型库或知识系统, 可以类似看作整个树状模型的基础化, 这对日后的工业型发展起着极为重要的铺垫作用。

1.2 与模块式程序设计相仿, 模型库或知识库一样能通过一定的手段模块化

可将其视为由众多模型单位或知识单位构成, 将领域模型单位以及知识单位合理有序得放进上述两类库内中。这一做法对整体模型的设计有着很大的帮助效果, 其功能与普通软件的实现思路和设计逻辑相似, 均通过将模型单元化的方式分析, 并极大程度提高了流水线生产的效率。

通过用诸如螺旋模型等形式, 向模型库或知识库中导入基本单位。螺旋每旋转一次之前, 都有必要通过细致的分析进行合适的计划开展, 并对宏观需求加以分析。然后开展领域模型以及领域知识的概念认知, 对各个领域的结构和内容按块进行区分和了解, 这之中各个结点单元便是所谓的各领域单元。方便简洁的结构使其能够很快的看出已经实现的部分结构单位和小部分仍在建设结构单位。针对仍未成功的小部分领域可以加以分析、设计和测试, 并设立部门各自分工, 各个部门最终通过流水线的形式井然有序地将基础结构单元放入库内, 长此以往, 最终得以完成该系统的各类软件版本的开发。

对于模式识别系统而言, 其基本单元便是领域的模型单位, 例如在进行语音识别时, 其本质就是一类波形;有关指纹识别主要由以下三个步骤组成:

(1) 加强与权威声音的合作与探讨, 并查阅相关书籍和文献, 以获得各个模型单位的准确参数。

(2) 将收集到的参数资料进行整理和汇总, 汇入并制成一张总表, 并对数据进行分析和处理。

(3) 将数据输入计算机进行相关的模拟, 观察是否能得到正确的识别成果。

就人工智能而言, 基本单元也可以按逻辑分为三大步骤, 类似于模式识别系统。此外, 当向库内装放基本单位时, 通过使用直接交互操作旧有的模式识别或人工智能系统的可视化生成方式, 能够较大的帮助系统在识别以及其他功能上得到更好的直观性体现。

2 树状结构的模型以及知识库的确立

模式识别以及人工智能系统, 将分类树丛的每个根点位 (孤立点位) 所对应的模型或知识单位逐个视作被识别对象, 通过新型模型单位以及知识单位对已识别的点位一一进行识别处理。树状模型的确立可分为以下两步:

(1) 若在部分根点位对应的模型或知识单位内, 具备认识出新模型单元知识单位的能力, 那么:

(1) 若l大于等于2时, 可将点位视为此类根点位的父点位。并产生一组更复杂的分类树, 然后将此类新模型单位放进模型单位组内, 学习完成。

(2) 若l等1时, 可以利用此根点位对应的模型或知识单位, 并将新模型单元加以分析和识别。若在各类单元的识别过程中, 具备认知这个根结点相应的模型或知识单位的能力, 就证实该点位和此类根点位相同, 不须学习, 学习终端;否则, 运用与 (1) 相似的手段进入新点位, 学习完成。

(2) 若无法将某一点位所对应的模型单位以及知识单位中, 认知出新模型单位或知识单位, 则有必要将新加入的模型单位或知识单位变为待建立的对象, 逐个通过每个根点位所对应的模型知识单位加以识别处理。

(1) 若不存在成功识别的点位, 那么新点位只能视作一类独立点位, 学习完成。

(2) 若存在两个及以上的根点位识别完成, 由于不存在任何点位可以同时从属于两类区分开的事物, 故学生发生错误终端。

(3) 若有任何一个根点位D识别完成, 那么新点位变为D的后代点位

所以, 有必将对D的所有子点位运用和每个点位相似的处理方式, 总结为有以下六大类情况。

(1) 新点位变为D的子点位, 新点位变成D最初某一类子点位的父点位, 与树状模型方法一中的第 (1) 步骤相似。

(2) 新点位和D的某一子点位相同, 与树状模型方法一中的第 (2) 步骤相似。

(3) 新点位变为D的子点位, 新点位变成某一子点位的父点位, 与树状模型方法一中的第 (2) 步骤相似。

(4) 新点位变为D的又一子点位, 与树状模型方法二中的第 (1) 步骤相似。

(5) 新点位学习失败, 与树状模型方法二中的第 (2) 步骤相似。

(6) 新点位变为D的某一子点位D的子代, 与树状模型方法二中的第 (3) 步骤相似, 逐个用递归形式加以分析。若新点位变为改子点位的子代, 则立即继承新点位, 建立过程到此为止。

3 模型建立的前提

为了保证整个系统的工业化运作, 系统对整体的模式认知能力以及系统提出了较高的普遍性指标。对模式认知而言, 模型单位的储存方法主要以分类储存为主, 并通过分类的手段进行识别和匹配。针对指纹识别, 将该识别方式运用到某张天然指纹图像的识别中去, 观察是否能在其中对某类模型结构加以识别。整个识别方式主要指纹图像为识别基础, 将模型库加以分析和整合, 并将上述结构单位用该模型单位以及天然指纹图像的各个位置加以匹配。

4 结语

文章提出和建立了树状结构模型, 模型单位以及知识单位都呈模块状, 维护简单且可靠度高, 生产运作模式也大都实现了流水化生产。此类生产形式适用于模型单位作为基础结构单位的模式认知和识别模型, 或以知识单元为基本组成单元的人工智能系统。这类模式识别和人工智能系统具有很大的普遍性。

参考文献

[1]张天序.模式识别与智能系统研究展望和对策[J].自动化学报, 2002 (12) .

[2]张佳.模式识别与智能系统专业实验室建设设想[J].中国电力教育;2013 (03) .

树状人行系统篇2

效果、体会和建议

魏国雄 2007年6月21日

尊敬的人民银行各位领导，尊敬的各位嘉宾：

大家好。首先，我谨代表中国工商银行向人民银行牵头建设征信系统表示诚挚的谢意，感谢你们为商业银行所做的这件好事、实事。同时，也感谢人民银行提供这样好的一个机会，使我能够和大家交流我行近年来在征信系统应用方面的效果、体会和建议。

请允许我简单介绍一下我行的基本情况。

一、工商银行基本情况

在党中央、国务院的正确领导下，在党和国家有关部门的指导和帮助下，我行已经于2006年10月27日同时成为国内A 股和香港H股上市公司。据统计，截止2007年5月31日，我行流通市值名列世界上市银行第三位，国内机构的资产总额达到7.9多万亿元，贷款余额达到3.76万亿元，继续保持国内第一大信贷银行的地位，贷款不良率为3.47%。其中，个人贷款和小企业贷款余额分别为6209亿元和1753亿元，不良贷款率分别为1.63%和0.84%。

与我行是中国最大信贷银行相对应的是，我行拥有庞大的信贷客户群。目前，我行共有法人贷款客户近6万户，个人贷款客户400多万户，信用卡客户1800多万户。自2007年1月1日至2007年5月31日，我行累计接受客户信贷申请约1100万次，累计发放贷款4.8万亿元。

面对庞大的信贷客户群和信贷业务量，我行历来十分重视应用科学手段，有效管理和控制信贷风险。自1999年以来，我行先后建立了法人信贷管理系统（CM2002）和个人信贷管理系统（PCM2003），实现以电子化手段综合管理客户评级、授信、评估、信贷审批、贷款发放和贷后管理等流程；建立了我行特别关注客户信息系统（CIIS），实现了全行客户信用信息跨专业、跨地区共享使用。

二、人行征信系统在工行的使用情况

虽然我行的CM2002、PCM2003系统的全面应用实现了我行信贷业务的流程化管理，CIIS系统的全面应用实现了我行系统内不良信用客户信息共享，但仅凭我行自己的力量无法实现跨金融机构客户信用信息的共享，其他商业银行也做不到这一点。人民银行企业和个人征信系统的建立和推广应用，恰好解决了我国各家商业银行无法系统化收集、管理和使用金融同业客户信用信息的重大难题。我行的应用实践表明，人行征信系统在我行信贷业务的贷前、贷中和贷后各个环节都发挥了良好作用，有效提升了我行客户信用风险管理，尤其是跨商业银行的客户信用风险管理能力，为我行资产质量、经营效益和股东价值提升起到了积极的推动作用。

（一）我行征信系统应用效果十分显著。我行于2006年1月1日在全行正式投产应用个人征信系统，到今年5月底的17个月间，我行依靠人行个人征信系统共堵住个人及小企业不良信用客户再融资5.29万起、51.12亿元；清收转化不良贷款897笔、1300万元；在贷后管理中预警高风险客户贷款100余亿元；在信用卡营销中剔除了大量不良信用客户。

我行在推广应用征信系统应用中，出现了不少生动、鲜活的事例，现仅举三个应用案例。案例一：2006年6月，一位在其他商业银行有汽车消费贷款不良信用记录的客户在我行郑州分行申请车贷时被征信系统提示为不良信用客户，我行拒绝为其再融资后，当日又驱车赶往数百里之外的我行南阳分行试图再次申请汽车消费贷款，又一次被我行根据人行征信系统查得的信息拒之门外。

案例二：2006年10月，有四个客户持中国移动通讯公司工作证件到我行珠海分行办理信用卡。我行通过查询人行个人征信系统发现这些客户在征信系统显示的工作单位并非中国移动通讯公司。后经核实，发现这4名客户系伪造工作证件进行信用卡欺诈，我行不仅拒绝为其办理信用卡，还迅速将这四人的诈骗企图报告了当地公安机关。

案例三：2006年11月，一名客户到我行湖北咸宁分行申请一笔1000万元的小企业贷款，我行依靠人行征信系统发现该企业的法人代表在他行有不良信用记录，我行信贷管理人员除了提示该企业法人代表有信贷违约情况、说明我行不能给其贷款外，还告知如不守信用今后就不能在所有商业银行取得融资。事后，该客户还清了在他行的欠款，表示此事使他深受教育，今后将珍视个人信用记录。

（二）我行领导高度重视，各相关业务部门联动配合，从组织上和制度上保证了人行征信系统在全行的推广应用。从人民银行通报的征信系统应用情况来看，我行在征信系统应用和管理方面走在各商业银行的前列。根本的原因，是因为我行在应用征信系统中取得了实实在在的效益。为了保证我行的征信系统管理和应用工作正规化、制度化，不断提升征信系统的应用效果和应用水平，我行从组织推动和制度建设两方面做出了具体安排。

在组织推动方面，成立了由总行主管副行长任组长的人行征信系统推广应用领导小组，统一协调解决征信系统应用管理有关的重大事项；在总行设立了专门管理我行征信工作的专职机构，统一负责全行征信系统的推广应用和业务管理工作。以上措施从组织上保证了我行征信系统应用和管理工作的顺利推进。

在制度建设方面，坚持制度先行，先后制定并印发十余个行发文，对征信系统的应用和管理原则及各相关业务部门的职能作了具体的规定，明确了“禁入”、“关注”和“正常”等不同类别客户的信贷业务政策，提出了明确的征信系统应用要求，顺利实现了将征信系统查询使用全面纳入我行信贷业务流程。同时，通过举办培训班，开展各种形式的征信系统宣传活动，加大征信系统应用情况的非现场监测和现场检查力度等措施，使各项规章制度落到了实处。

（三）进行技术创新，实现人行征信系统应用与我行信贷管理流程的无缝连接。应该说，我行的信息技术在国内同业中还是有些优势的。在推动征信系统应用的过程中，我行决定采用信息技术手段，将人行征信系统的查询使用与我行的CM2002、PCM2003、CIIS系统之间进行无缝衔接。经过努力，我行于2006年11月做到了用户查询信贷管理系统就可以自动访问人行征信系统，从技术上实现了人行征信系统查询使用刚性嵌入我行信贷管理流程。技术上的创新，确保了我行在不增加信贷工作人员工作量的前提下，显著提高了我行防范跨金融机构客户信用风险的能力，依靠人行征信系统每月堵住不良信用客户再融资金额由2006年1月手工查询时的1500万元，上升到现在的每月6亿元左右，短短17 个月，征信系统在我行的应用效用提升了40倍以上。

总之，在人民银行的正确领导下，经过全行上下不懈努力，我行的征信系统应用和管理工作已经全面走上正轨。根据人民银行通报的情况，并结合我行自己的判断，我行征信系统在以下几个方面的工作处于同业领先水平：

 向人民银行上报个人和企业征信信息数据量最大；  个人征信系统查询量居各商业银行之首，月度查询访问量超过100万次；

 实现了将个人征信系统与本行系统联动，实现全行简化版整合型客户信用报告；

 实现了对不良信用客户按照“禁入”、“关注”和“正常”三类自动定级评定；

 引入人行个人征信系统的个人客户信用信息，初步实现了对个人客户进行信用评分；

 实现了对个人征信系统中显示的我行欠款客户主动进行欠款在线催收；

 实现了将中小企业征信信息查询纳入全行中小企业贷款、新增授信业务流程。

诚然，我们深知我行的信用风险管理还有许多工作要做，特别是在征信系统应用和管理方面，我们也只是做了一点初步的探索。我们有信心，也期待着未来在人民银行的正确领导下，把我行的征信系统管理和应用工作做得越来越好。

三、做好下一步征信工作的几点体会

总结一年多来我行的征信系统应用实践，我们有以下几个方面的切身体会。

（一）征信系统的建设和推广应用，是人民银行为商业银行做的一件大实事、大好事。目前，信用风险是我国各商业银行最主要的风险，我国各家商业银行多年来都迫切希望找到防范跨金融机构客户信用风险的方法和手段。只有在人民银行征信系统建立后，才从根本上解决了商业银行收集、整理和共享使用他行客户信用信息的难题，为推动商业银行进一步提高信贷风险管理水平起到了无法替代的作用。

（二）商业银行领导重视，业务配合是做好征信工作的基本前提。征信工作决不是简单的建几个征信系统，而是一项复杂、艰巨的系统工程，只有将征信系统的使用与商业银行的信贷管理实践很好地结合起来，才能真正发挥作用。而商业银行要真正应用好征信系统，就需要改变原有的业务操作流程。这涉及方方面面，首先需要高层领导下决心，并出面进行组织推动，才有可能推动商业银行的整个信贷管理业务流程再造，将征信系统的使用全面纳入信贷业务管理体系。同时，在具体落实过程中，我们的体会是，必须明确征信系统应用管理的业务牵头部门，必须依靠信贷管理、风险控制、管理信息、技术开发等部门的积极参与和密切配合，必须及时投入一定的人、财、物资源，才能持续推动并做好征信的各项具体工作。

（三）技术创新和业务创新是做好征信系统应用工作的保证。人民银行建立征信系统，从根本上解决了商业银行依靠自身力量无法解决的跨金融机构客户信用信息共享问题。但征信系统目前提供的主要是基础性客户信用信息，还需要经过二次加工，才能应用到商业银行的具体业务中去，才能在商业银行的信贷管理工作中发挥真正的作用。由于各家商业银行的信贷管理业务流程和管理要求不同，人民银行不可能包办代替各商业银行解决征信系统应用中的各种技术和业务问题。对于国内商业银行而言，征信工作是一项全新的工作。虽然国外一些经验可以借鉴，但是由于国情不同、法律环境差异，没有可以直接套用的现成模式。商业银行要想用好征信系统，必须根据自己的业务要求和信息系统特点，大力进行业务创新和技术创新，才能探索出一条适合商业银行自身的征信系统应用办法和管理制度。

四、对做好下一步征信工作的两点建议

我行的征信系统应用实践证明，征信系统对落实十六大、十六届三中全会精神，建设诚信社会，推动社会诚信体制和失信惩戒机制的建立和完善，维护银行债权，打击恶意欺诈，提高银行信贷资产质量等方面具有重要而积极的作用。为了使征信系统继续做大、做强、做深、做细，特提出如下建议，供人民银行领导参考：

（一）加快征信立法步伐，明确失信惩戒标准，保障商业银行利益。征信的本质是公民以部分隐私权换取贷款便利。俗话说，没有规矩不成方圆。就征信工作而言，制度平台的建设比技术平台的建设更为重要。尤其在当今IT技术日新月异情况下，许多技术构想都可以很好地实现。但是，制度建设却远未达到如此境界，尤其在征信领域，许多基础性的、开拓性的立法工作仍有待我们去做。根据国外经验，征信工作要顺利开展，必须要有一系列法律安排作保证。而我国现行法律中只有对公民名誉权、隐私权保护的相关规定，而对于失信惩戒没有明确规定，这不利于全民诚信意识整体提高和保护商业银行合法权益。因此，建议人民银行推动国家尽快出台有关征信法律、法规体系的建立。

（二）依托征信系统，在商业银行开展执行“抵销权”试点工作。大部分不良信用客户存款和积欠本息不在同一家商业银行。例如，我们通过个人征信系统的应用发现，约44%欠款不在我行的个人客户在我行有存款或其他金融资产，而约35%的我行欠款客户在我行的存款和其他金融资产几乎为零。这使得商业银行很难执行“抵销权”，不良客户的失信成本很低。这个问题不解决，社会诚信体制和失信惩戒机制建立也缺乏基础。建议由人民银行牵头，依托征信系统，在国内商业银行中对不良信用客户跨行的欠款和存款进行追偿抵扣，维护商业银行的合法权益。

以上是我行在应用人行征信系统方面的一些初步认识、体会和建议，不当之处敬请指正。

树状人行系统篇3

随着信息技术的迅速发展以及人们获取信息手段的多样化, 各行各业拥有大量的信息, 面对这个庞大的信息海洋, 如何更好的利用这些信息资源、挖掘出信息中隐含的知识, 已经成为专家和学者广泛关注的问题。随着数据挖掘技术的不断发展, 数据挖掘技术提供了从海量的结构化信息中抽取或挖掘隐含信息和知识的重要方法和途径, 而人们日常所需的80%以上的数据是以非结构化的形式存在的, 如网页、文档和报告等。因此, 人们迫切需要能从Web网页中挖掘到相应信息的方法, 并能对Web网页进行过滤。本文基于SVM (支持向量机) , 研究Web网页信息分类及信息过滤方法, Web网页分类是指在给定的分类体系下, 根据Web网页的内容确定文本相关类别的过程。

本文提出了一种基于树状支持向量机 (SVM) 进行自动Web网页分类与过滤的模型, 提高了以往直接使用多分类SVM进行Web网页的分类效果。经过对中等的Web网页测试实验表明, 树状SVM模型在Web网页分类与过滤应用中有较好的表现。

1 算法基本思想

1.1 网页预处理

由于网页信息是用HTML语言书写的非结构化的信息, 而信息的内容使用人类的自然语言表示。因此, Web网页分类前必须对网页进行预处理。首先, 由于网页信息都是用HTML语言表示的, 而且在网页中不可避免的包含有很多广告或其他无关信息, 因此必须先将网页中的有用信息提取出来, 并转换成用纯文本表示的信息。当前网页内容提取的方法很多, 主要有基于DOM树, 基于视觉页面分割和基于统计分析等方法, 本系统采用一种基于坐标树的方法对网页内容进行提取, 该方法针对DOM树缺乏位置信息的不足, 加入了坐标信息生成坐标树, 并且还给出了能反映网页空间关系的图模型。通过将HTML文档转换为坐标树, 结合位置特征和空间关系可对网页进行分析和提取内容。

Web网页内容提取步骤如下:

(1) 网页结构分析, 得到网页中逻辑上相关的内容块;

(2) 内容净化, 找到体现网页中内容主体的部分, 也就是新闻部分, 而将分布在内容主体周围的无关信息, 如导航条、广告信息等内容去掉;

(3) 主题内容提取, 经过页面布局分析和有效的内容净化后, 可以很容易地找到网页中的主题内容, 将其抽取出来;

(4) 转化为纯文本, 抽取出来的网页主题内容是使用HTML语言表示的, 通过HTML解析工具, 将HTML语言中所包含的文本信息全部提取出来。

1.2 文本分词处理

西方文字词与词之间使用自然分隔符进行分隔, 而中文没有。因此, 中文必须采用特殊的方式来进行分词处理。现在常用的方法有词典法、统计计算法等来进行中文句子切分。在进行分词处理的时候, 因为本文的目的是进行Web网页分类, 应当尽量使词条保持较大颗粒, 如:“中华人民共和国”就不应当被切分成较小的“中华”, “人民”, “共和国”。经实验证明, 较小颗粒的切分在文本检索方面, 对提高检索效果有较大的帮助;而在文本分类应用方面, 较小颗粒的切分不利于保持原始文本的语义, 故在本文中使用较大颗粒的切分。

1.3 文本特征提取

文本特征一般通过向量空间模型表征。向量空间模型 (VSM Vector Space Model) 是最常用的文本分类模型之一。它以特征项作为向量空间的坐标, 将文本看作向量空间中的点。特征项可以是字、词、短语、句子等意义单位, 一般取词作为特征项。目前在文本分类领域中, 文本特征主要采用向量方式来表示, 每个文档表示为一个向量, 如下所示:

每一个N维向量分别由N个特征fi组成, ti表示第i个特征, di表示ti特征在文本中的权重。最简单的情况下文本分类时可采用词频 (TF) 作为基本的特征, 词频指某一个词在本文本中出现的频率, 但由于词频 (TF) 的某些不足, 因此使用最广泛的是TFIDF特征。TFIDF公式如下所示:

ti为第i个特征项, Dj表示第j篇文章, TF (ti, Dj) 表示词ti在文章Dj中出现的次数, |D|表示训练集中的所有文本数, |DF (ti) |表示包含词ti的文本数。而对数函数中加1是为了防止由于每篇文章中都含有词ti而使得此TFIDF计算结果为0。此时TFIDF (ti, Dj) 表示词ti在文章Dj中的权重。在本系统中采用SQLSERVER2000来存储训练集与分类集中分词后的结果、其相应的TFIDF值和此词所对应的网页URL地址, 具体如图1所示:

1.4 SVM树状分类与过滤

支持向量机 (SVM) 是建立在统计学习理论的VC维理论和结构风险最小化原理基础上的, 根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳点, 以获得最好的效果。SVM统计方法与神经网络方法最大的不同在于, 它不通过减小分类的个数来控制模型的复杂性, 它不会像神经网络在模型复杂度较高的情况下, 容易陷入局部最小值, 而使得最终计算结果错误。SVM是从线性可分情况下的最优分类面发展而来的, 基本思想为最大化分类间隔 (margin) 。所谓最优就是要求分类面不仅能将两类文本正确分开, 而且使分类间隔最大。

直接使用SVM进行对多类文章进行分类存在一些不足, 如存在分类精度不高, 需要训练的支持向量机个数太多, 或分类未知样本时使用的支持向量机过多等。因此, 本文提出一种将支持向量机与树状模型结合的多文本类分类方法。

使用树状模型将一个复杂的多分类问题变为多次处理的一个简单的二类问题。现在我们对直接使用多分类支持向量机 (SVM) 与使用树状模型的支持向量机 (SVM) 进行对比。在使用多分类支持向量机 (SVM) 进行分类时, 每个分类必须进行一个模型的训练, 而各个模型训练时只使用属于本类分类的Web网页信息。在使用此模型分类时每一个分类的模型必须面对所有的待分类信息。而使用树状支持向量机 (SVM) 进行分类时, 每进行一层分类, 就要训练一次分类模型, 而此时训练的样本数量是相应分类在多分类支持向量机训练样本的总和。如图2所示, 在第一层模型训练时训练二个分类模型, 第一个模型使用1、2、3、4类的Web信息。第二个模型使用5、6、7类的Web信息。通过这种方式, 能生成更加符合样本特征的模型。而且, 当树状支持向量机 (SVM) 训练较低层次的模型时使用和原始多分类支持向量机 (SVM) 同样多的样本数时, 待分类文本的总量又因树状模型前期的分流而降到了一个较低的数量级。并且在构建最终分类模型时, 我们一般选择差异较大的分类。因此, 使支持向量机分类的效果有了一定的提高。

总的来, 使用树状模型可以将要分类的文本流分开, 使每个支持向量机面对较少的文本数, 可以较好的提高分类精度, 从而提高分类与训练的效率。整个树状结构如图2所示。

本系统是分类与过滤相结合, 在Internet上有很多信息是非法信息, 不允许用户查看。因此, 在最终用户查看时, 必须能够将非法信息分类出来。在我们的信息分类系统中, 考虑到过滤信息与非过滤信息具有较为明显的差异, 主要是过滤信息与非过滤信息中词频信息差异很大, 有很明显的区别。因此, 将过滤信息与非过滤信息的分类放在树状分类的模型的第一层。如图2第一层所示, 先将全部信息分为过滤信息与非过滤信息, 然后再将非过滤信息分为较为明显的几类, 再逐次细分, 直到达到分类要求。

2 实验结果与分析

本文为验证基于树状支持向量机 (SVM) 分类的效果, 进行了如下实验。数据为人民网2006年和2007年的体育、教育、军事、科技和汽车版上下载的网页, 以及一些欲被过滤信息, 将文本在该网站上所属的专题作为其类别, 共3000多篇。从各个类别中按照约50%的比例任意抽取出一部分作为训练文本, 余下的作为测试文本。

对文本分词完成后, 采取选择出其中的名词、动词、机构团体、人名、地名和产品名, 去掉了其中的连词、副词、叹词、拟声词、介词等。这些词对文本的分类作用较小, 会使代表文本的向量维数增加;并且这些词在各类文本中分布比较均匀, 分类时会影响分类的结果。我们在抽取每篇文本的特征时, 首先设置一个词频值的阈值, 如果此词的词频大于此阈值, 则把此词作为特征。按照这个方法, 系统共提取出1867个特征词。

为了更好的说明树状SVM分类算法的效果, 本试验对相同样本的Web网页分别使用SVM直接分类与树状SVM分类两种方法进行比较, 树状SVM分类的构造如图2所示。SVM直接分类的基本思路是:对每个分类网页直接提取特征训练分类器进行分类。

本实验的运行环境是WINDOWSXP操作系统, 所用的软件是采用VC++6.0编制。

分类结果如表2和图3所示。

通过实验结果可以看出, 在真实网站语料上, 由于树状模型与SVM的结合, 使各个分类模型在训练时有了更多的样本, 并且分类器在相同分类样本训练和在进行文本分类时面对较少的Web信息数量。通过合理的分隔各个分类, 可以有效的提高分类的精度。

3 结束语

本文主要讨论了在文本分类与过滤系统中, 使用树状SVM进行文本分类与过滤, 以便用户在检索信息时可以获得相应分类的信息, 同时过滤掉不健康的信息, 使用户可以更方便、更安全的获取各种信息。

建立在结构风险最小化理论基础上的SVM算法能够处理高维的文本分类问题, 具有好的泛化性能。而本文所提出的基于树状模型的SVM算法在原SVM算法上又增加了树状模型。试验结果表明, 该算法在文本分类与过滤应用中具有比原SVM算法更好的效果。

由于树状模型在分类时的错误具有累积效应, 在树的根部发生的错误会逐次传递到最终的分类。因此, 在今后的研究中, 我们将进一步研究不同分类之间的关系, 以进一步提高分类效果。

参考文献

[1]周雪忠, 吴朝晖.文本知识的发现:基于信息抽取的文本挖掘[J].计算机科学.2003.

[2]唐菁, 沈记全, 杨炳儒.基于Web的文本挖掘系统的研究与实现[J].计算机科学.2003.

本文来自 360文秘网(www.360wenmi.com)，转载请保留网址和出处