局部文档分析

2024-05-06

局部文档分析(精选三篇)

局部文档分析 篇1

关键词:本体,语义检索,查询扩展,局部文档分析

0 引言

目前的信息检索系统以关键词匹配为技术基础, 检索结果的优劣依赖于用户给出的检索关键词。Furnas第一个发现了“词典问题” (dictionary problem) [1], 即两个人使用同样关键词描述同一事物的几率小于20%。同时Xu Jx和Croft WB等人发现, 49%的用户仅用一个关键词表达自己的查询请求, 33%的用户使用两个单词进行查询, 用户平均只使用1.4个单词描述他们的查询[2]。使用的查询词越少, 结果命中率就越低, 查询扩展技术由此产生, 逐渐发展成了信息检索领域的一个重要研究方向, 并已经向语义扩展方向发展。

本文将语义本体技术融合到基于局部文档分析的查询扩展方法中, 得到了一种改进的基于本体的局部文档分析查询扩展方法, 从语义角度扩展关键词, 从而提高检索的质量。

1 相关理论

1.1 查询扩展定义

查询扩展就是指利用计算机语言学、信息学等多种技术, 把与初始查询相关的词或概念以逻辑“或”的方式添加到初始查询中, 得到比初始查询更长的新查询, 然后再次检索文档, 以改善信息检索的查全率和查准率, 从而解决“词不匹配”问题[3]。查询扩展技术大致可以分为3类:1) 基于用户相关反馈的方法[4];2) 基于全局文档集分析的方法[5];3) 基于局部文档集分析的方法[3]。

1.2 基于局部文档集分析的方法

基于局部文档集分析的方法是在基于全局文档集分析的方法基础上提出来的, 克服了全局分析方法构建全局叙词表计算量大的问题, 同时也解决了基于用户相关反馈方法需要用户干预查询扩展的不足。但是该方法的效率取决于参与分析的文档数及文档的大小 (词量) , 文档量大、文档体积大仍然会给局部文档分析带来巨大的计算量。同时由于难以保证待分析文档的相关性, 造成扩展后查询表达式相关性的不确定, 影响检索结果质量。

1.3 本体

本体是共享概念模型的明确的形式化规范说明[6]。从知识共享的角度来说, 本体是通用意义上的概念定义集合, 以分层次的形式化模式定义领域内术语间的相互关系, 提供对这个领域知识的共同理解。实质上本体是一个领域的抽象知识化表示形式, 具有良好的层次结构, 以概念、实例以及各种关系表示领域中的信息。通过对本体中的关系进行推理, 可以发掘隐含信息, 实现语义上的关联。

2 基于本体的局部文档分析查询扩展方法

为了更好的发挥基于局部文档分析的方法优势, 同时实现语义支持, 本文将本体技术应用到基于局部文档分析的方法中, 提出了基于本体的局部文档分析查询扩展方法。改进后的方法充分利用了本体的优良特性, 以本体指导整个查询扩展过程, 实现了对语义的支持, 基本原理为:1) 初始查询请求提交;2) 本体化初始查询请求的关键词, 并利用本体对关键词进行同义、近义扩展;3) 进行一次检索;4) 从检索结果中取N (N取值可以节) 个文档进行分析, 利用文档矢量 (由文档特征词权重构成, 特征词权重根据出现频率计算得到) 提取文档中的特征词。文档矢量在对文档进行预处理时形成, 重复使用;5) 一次扩展后的关键词集通过本体进行二次语义扩展。通过本体对关键词逐个进行相似度值查询, 根据相似度值的高低来决定新扩展词的取舍。向一次扩展关键词集合中添加语义相关的概念、实例, 提高了检索词的语义完备性;6) 对步骤4) 和5) 得到的关键词集合进行交运算, 得到最终的扩展结果。这一步操作得到的关键词, 既满足了传统方法的共现频率统计, 也满足了语义相关性的描述, 丢弃了两种方法产生的不一致的词, 保证了语义相关性。

扩展过程由两条路, 一条为本体扩展过程, 即步骤5) ;一条是传统的文档分析过程, 即步骤3) 和4) 。最终通过步骤6) 合为一条路, 产生最终的检索词集合。本体技术的使用, 实现了对语义的支持, 使扩展结果语义上更加明确, 避免二义性。

3 实验及结果分析

本文以田径项目作为领域, 构建了一个简单的实验本体。概念:田径项目, 跳跃, 径赛, 投掷, 接力, 公路赛, 障碍赛, 短跑, 长跑;实例:竞走, 马拉松, 女子100m栏, 男子110m栏, 5000m, 10000m, 4×100m, 4×400m, 100m, 400m, 200m, 标枪, 铁饼, 铅球, 链球, 跳高, 跳远, 三级跳远, 撑杆跳高。

本文从网络上摘取了60个与田径项目相关的新闻作为实验文档, 采用分层向量空间模型[7]进行文档的矢量化, 得到对应的文档矢量。

以检索“短跑”为例, 使用传统方法和本文方法进行对比实验, 使用查全率和查准率两个指标来衡量检索质量。60个样本文档中与“短跑”相关的文档总共是16个。

1) 使用本文基于本体的局部文档分析查询扩展方法, 最终检索结果如表1所示。

根据文档相似度值对结果进行相关性排序, 以一定的阈值获取最终结果返回给用户。相似度阈值分别取0.3, 0.4, 0.5时, 对应的查全率分别为:100%, 87.5%, 25%, 查准率相同为:100%。

2) 使用传统局部文档分析查询扩展方法, 最终检索结果如表2所示。

取同样的阈值0.3, 0.4, 0.5, 对应的查全率分别为:62.5%, 37.5%, 37.5%, 查准率相同为100%。

两种方法的查全率对比如图2所示。

对比结果, 两种方法查准率一样, 但查全率差别较大。阈值为0.3、0.4时, 本文方法的查全率远高于原方法;阈值为0.5时, 两种方法查全率差不多, 但都比较低。原因为:随着阈值的提高, 对文档相似度的要求也提高, 符合的文档数量减少, 查全率自然降低, 阈值为0.3、0.4的时候, 本文的方法对用户检索词的扩展效果更好, 相关性更大, 查全率高于原方法。为了使最终结果文档数在一个合适的范围内, 需要在查全率和查准率之间选择一个平衡点, 也就是选择一个合适的阈值来进行控制, 实验中阈值取0.3和0.4都可以, 在这个前提下, 本文提出的方法能保证检索词的有效性和相关性, 大大提高查全率, 并保证查准率。

4 结论

本文针对基于局部分析的查询扩展不支持语义的弱点, 通过融合本体技术于其中, 得到了一个改进的方法。通过实验结果数据的对比分析, 验证了本文提出的方法的有效性。

参考文献

[1]Furnas GW, Landauer TK, Gomez LM, Dumais ST.The vocabulary problem in human-system communication.Communication of ACM, 1987, 30 (11) :964-971.

[2]崔航, 文继荣, 李敏.基于用户日志的查询扩展统计模型[J].软件学报, 2003, 14 (9) :1593-1599.

[3]黄名选, 严小卫, 张师超.查询扩展技术进展与展望[J].计算机应用与软件, 2007, 24 (11) :1-4.

[4]宋玲丽, 成颖, 单启成.信息检索系统中的相关反馈技术[J].情报学报, 2005, 24 (1) :34-41.

[5]TA Runkler, JC Bezdek.Automatic keyword extraction with relational clustering and Levenshtein distances, 9th IEEE International Conferenceon Fuzzy Systems, IEEE, 2000:636-640.

[6]陈泳, 林世平.基于本体的语义检索技术[J].计算机工程与应用, 2006 (S1) :78-80.

GIS局部放电检测方式的分析 篇2

关键词:电能;GIS;局部放电;检测报价;方案

中图分类号:TM855 文献标识码:A 文章编号:1006-8937(2015)24-0005-02

1 GIS局部放电检测发展现状、研究的目的和意义

如今,无论在国内还是在国际上针对GIS的局部放电检测技术都在高速发展,国内外已经有很多专家学者在GIS的局部放电检测上取得了很大的突破,获得了不错的成绩。

1.1 国内研究

清华大学在90年代相继研制出来采用UHF法的便携式局部放电检测设备和GIS局部放电在线检测系统,这两种检测局部放电的方法是采用外部的传感器进行监测,实用性较强。但该方式和局部放电检测设备对检测到的信号不能够很好的处理。

西安交通大学在90年代末研制出一种超宽频带局部放电传感器。试验证明,其对其频率响应特性进行测量效果较好。

1.2 国外研究

英国的Strathclyde大学联合NGC和Scottish Power plc共同设计出了一套UHF局部放电检测系统。系统中断路器工作时可能产生快速暂态过电压(VFTO),为了有效的防止快速暂态过电压的产生,应该对检测系统实施相应的保护措施,钳位二极管应该分别设置在UHF信号调节处和耦合器输出处。但由于系统并不是依靠UHF局部放电信号进行分析,导致检测系统的检测精度不能得到保证。

瑞士大学研制出一种基于宽带和窄带结合的多通道、实时响应的GIS局部放电检测系统。系统的中每个测量通道都含有一个低噪声宽带传感器。此系统适合于在相关技术开发过程中的实验室测试和GIS的长期监测。但是由于此系统的确切精度不能得到保证,需要进一步的研究。

21世纪初,俄罗斯科学家Arakelian针对GIS局部放电检测提出物理—化学诊断方法,其的检测原理是:一般来说,SF6中会含有部分杂质,所以当设备发生局部放电时,在温度和压力的作用下,设备内密度、湿度和酸碱度等参数会发生一些变化。根据参数的变化可分析得出局部放电的程度。但由于此方法的局限性一般用于辅助分析绝缘故障时使用。

此外,还有20世纪初日本大阪大学的Kawada提出的采用宽带电磁波(E-M)动态频谱分析的小波方法。

2 传统检测GIS局部放电的方法

传统检测GIS的局部放电方法主要可以划分为两种类型:电测法和非电测法,具体来说有以下五种检测GIS局部放电的方法。

2.1 非电气检测局部放电法

2.1.1 光学检测GIS局部放电法

在现有的检测技术当中,光学检测法来检测放电产生的光是现有最灵敏的方法。采用光学检测有时都可以检测到一个光子的发射。玻璃和SF6气体都有很强的吸光能力,所以在检测是一般要采用透过石英透镜。光学检测GIS局部放电法在检测已知点的局部放电比较有效。但将光学检测GIS局部放电法用于检测未知的放电源时,其灵敏度会受到很大影响。

2.1.2 化学检测GIS局部放电法

化学检测GIS局部放电法是检测击穿SF6后分解生产的其他物质来间接检测局部放电的方法。通常电解SF6生成的气体有SOF2和SO2F2,一般检测这两种气体采用气相色谱仪和质谱分析对气体进行检测,其灵敏度高。但化学检测GIS局部放电法容易受到电气的干扰,并且化学检测GIS局部放电法所需时间较长,一般都需要几个小时或者几天的时间,这对其广泛应用产生了影响。

2.1.3 声学检测GIS局部放电法

GIS中局部放电涉及到的声音信号的带宽一般在20~

250 kHz之间,带宽较长,声学检测局部放电一般对其局部放电时产生的声带常采用加速度传感器和声发射传感器等进行检测。

2.2 电气检测局部放电法

2.2.1 常规电测法

常规电测法是在二十世纪八十年代提出的,后来常规电测法在对GIS局部放电检测中得到了广泛的应用。采用常规电测法对GIS局部放电进行测量时,一般通过对传感器和GIS等值电容进行调节来提高检测的灵敏度。但是采用常规电测法对GIS局部放电检测时容易受到外部的电磁干扰。

2.2.2 超高频法

超高频法在20世纪80年代初期由英国提出。一般来说,超高频法抗噪声干扰能力较强,并且有很好的局放源定位能力。但当检测与局放源距离较远时,采集信号衰减会衰减的很快,所以采用超高频法对GIS局部放电进行检测时会需要较多的传感器。

3 基于超声波检测局部放电的方法

在GIS局部放电中,不同的绝缘缺陷类型产生的局部放电会有不同的特征,要想研制出合适的检测GIS局部放电的方法,要对不同类型的局部放电的波形放电相位等信号特征进行采集和分析。找出不同类型信号之间分别的依据。

为了采集到不同类型信号的数据的真实性,为了试验装置能更好的对GIS局部放电进行检测,要保证试验装置满足以下条件:

①要保证试验装置内应含有真实的GIS模型,GIS模型应该有和真实的GIS有相同的绝缘性能和绝缘结构,并且要保证GIS模型和真实的GIS一样,有相同的SF6绝缘环境。

②试验装置中应包含充气装置,这样方便了打开气室来模拟各种绝缘缺陷和对各种局部放电进行模拟试验。

③要求试验装置有较好的高压试验环境,这样能够减小自电晕放电的影响和电源的干扰。

④要求试验装置有一套对局部放电测量的系统,这样能够方便对信号比较和放电量的测量。

⑤具有一套超高频测量系统,超高频测量结果是在现场条件下希望用来进行放电类型判别和放电量估计的重要数据之一。

⑥试验装置应有必要的保护措施,包括高电压保护和 SF6排放,以保证人员及设备的安全。

超声波检测装置主要包括超声传感器、前置放大器、DSP高速数据采集系统、基于ARM的高性能嵌入式控制平台和后台具有强大数据分析能力的服务器等,首先将传感器采集到的数字信号进行处理,本方法的主要内容是用超声波法对绝缘缺陷类型确认和识别。处理之后通过网络将处理之后的信号预处理后的信号传送到远程服务器,在收集到处理之后的信号后进行抗干扰处理并提取信号的特征参数,之后将收集到的成果存储到信号特征数据库。最后相关学者和专家对特征数据库中的数据做出GIS绝缘状态的相关诊断。

GIS局部放电对设备的正常运行时很重要的一步。对GIS局部放电检测的思路主要包括检测设备的选择、对干扰的确定、判定绝缘缺陷的类型及对绝缘缺陷的定位,具体各个阶段如图1所示。

4 结 语

采用超声波发对GIS局部放电进行检测是一项十分繁琐的工作,虽然采用超声波发对GIS局部放电检测有了一定的进展,但还有许多问题有待解决,如在现场对GIS局部放电进行检测时,外界环境过于复杂,其中存在着大量未知的干扰,怎么去抑制外界干扰来得到正确的关于局部放电的数据是今后要面临的一项挑战;另外,GIS存在的绝缘缺陷的类型繁多,不同的绝缘缺陷类型会表现出不同的形态,今后还要不断努力去精确确认各种局部放电类型。

参考文献:

[1] 李立学.GIS局部放电超高频包络检测研究[D].上海:上海交通大学,2009.

[2] 陈宏福.超声波法检测GIS局部放电的研究[D].上海:上海交通大学,2008.

局部文档分析 篇3

局部敏感哈希算法[3] (Locality Sensitive Hashing, 简称LSH) 是1999年Piotr Indyk和Rajeev Motwani为了解决主存储器中最近邻搜索问题而提出的。起初, 算法在实现上需要进行汉明空间的嵌入, 使得算法的应用具有很大的局限性, 随着人们的努力, LSH先后经过basic LSH, LSH、Near-Optimal LSH和Lattice-based LSH等几种算法[4], 现在已经得到了广泛的应用。本文将局部敏感哈希算法应用到语音文档的主题分类中, 以期在较低时间复杂度的情况下获得较好的分类性能。

1 向量空间模型

向量空间模型是将计算机不能直接处理的语言片段变换成能够识别的数据的一种方法。在向量空间模型中, 一个文档被认为是一个向量, 文档中的词 (也称特征项) 被认为是向量空间中的维, 这样, 一个文档就被认为是由这些特征项张开的空间中的一个向量, 向量的每一维就是这些文档特征项对应的权重。显然, 权重的计算方法很大程度上决定了模型的准确度。目前, 在分类和检索系统中常用的特征项权重计算方法包含以下几种[4]:布尔权重、TF权重、IDF权重、TF-IDF权重和后验概率TF-IDF权重。本文采用的权重计算方法主要是后两种。

2 局部敏感哈希

局部敏感哈希算法的核心思想是, 针对空间中的点, 通过选用适当的局部敏感哈希函数对其进行散列, 使得散列后的数据仍保持原来数据的位置关系, 即原来距离较近的点以较大的概率散列到相同的哈希桶中, 反之, 原来距离较远的点以较小的概率散列到同一桶中, 下面给出局部敏感哈希[2]的定义:

一个映射函数族Η={h:S→U}, 在距离测度D下, 如果对于任意的点v, q∈S, 有

(1) 如果v∈B (q, r1) , 则有

(2) 如果v∉B (q, r1) , 则有

则该函数族Η={h:S→U}被称为在距离测度D下的

(r1, r2, p1, p2) -敏感哈希函数族, 其中, p1, p2, r1, r2满足不等式p1>p2和r1

由上述定义可知, 两距离较近的点被散列到同一桶中的概率至少是p1, 反之, 两距离较远的点散列到同一桶中的概率不会超过1p (p2

对于参数k, 定义一个函数组, ς={g:S→Uk}, 其中

函数组g () 就是由k个哈希函数组成的哈希函数组。对于一个向量v利用函数组g () 中的k个哈希值h1 (v) , h2 (v) , L, hk (v) 生成哈希索引键值。从ς={g:S→Uk}中随机、独立的均匀地选择L个函数g1, g2, L, gL, 利用这一组函数创建哈希索引。

3 稳定分布

定义[6]:若存在p≥0, 使得对于任意整数n, 实数v1, v 2, Lvn和独立同分布随机变量X1, X 2, L, Xn (X1, X2, L, Xn均服从分布D) , 随机变量服从相同的分布, 则称R上的分布D是稳定的, 其中X是一个服从D分布的随机变量。

由上定义可以得知, 变量经过线性运算之后, 得到的结果仍然服从原来变量的分布。本文的实验的距离测度按l2范数计算, 故采用的是正态分布下的局部敏感哈希函数, 表达式如下,

其中, a是每一维都服从稳定分布的随机变量组成的向量, b是在[0, r]上的均匀分布, r是直线被等分后每个线段的长度。

4 实验及结论

本次实验的数据库内含体育、经济、国防和政治四大类, 数据经过识别之后将其糅合成400个文档, 这些文档的维数在5907-6032之间。将这些文档分成10组, 每组中训练数据为28个, 测试数据为12个, 共40个, 进行循环实验。

选择k=54 L=12, 分类实验的步骤如下:

(1) 构建稳定分布下的局部敏感哈希函数;

(2) 根据给定的参数选择适当的参数k和L的取值, 按照上述gi, i=1, 2, L, L的构建方法进行构建;

(3) 应用构建的局部敏感哈希函数组对训练数据进行哈希散列;

(4) 对测试数据集中的每一个文档向量进行同样的哈希散列并在 (3) 中形成的哈希表中查询候选点, 对候选点进行距离计算并排序, 找出离查询点最近的文档向量, 该向量对应的类别就是该查询点文档的类别;

(5) 重复步骤 (4) 直到所有的测试分档被分类。

为了证明LSH在分类时间上的优势, 我们将其与多维KD树分类方法进行了比较, 分类实验的结果如下表所示:

由表可以看出, 无论是LSH还是多维KD树, 后验概率TF-IDF权重下的准确率和召回率整体都比TF-IDF权重下的要高。在TF-IDF权重下, LSH对国防类的准确率比多维KD树高出了7.6%, 对其他类别二者的分类性能相当, 但是多维KD树的分类时间却是LSH算法的4.63倍。在后验概率TF-IDF权重下, LSH对体育和国防的分类准确度稍低于多维KD树, 对政治的分类准确度高于多维KD树, LSH对国防的召回率低于多维KD树, 但此时多维KD树的分类时间是LSH算法的6.02倍。综上所述, LSH算法不仅能够获得较好的分类性能, 而且具有很低的时间复杂度, 这大大的提高了LSH算法的实用价值。

5 结论

根据本文的理论分析和实验研究可得出以下结论:局部敏感哈希算法在对高维稀疏矩阵进行分类可得到较好的分类性能;与多维KD树比较, 局部敏感哈希算法在时间复杂度上具有很高的优势;在用局部敏感哈希算法进行分类的时候, 会受到随机因子的影响;此外, 不同权重对分类的性能也有很大的影响。总之, 局部敏感哈希算法对于处理高维稀疏数据矩阵具有较低的时间复杂度, 故有较高的实用价值。其中, 随机因子的影响有待于进一步的研究。

摘要:对识别后的语音文档进行了向量空间模型的建立, 针对得到的高维稀疏矩阵提出了基于局部敏感哈希的语音文档分类算法, 算法能够直接在高维稀疏矩阵上进行分类, 无需降维。此外, 在构建局部敏感哈希函数的时候结合了稳定分布。实验证明, 局部敏感哈希算法能够对语音文档进行合理有效的分类, 同时获得了较小的时间复杂度。

关键词:语音文档分类,局部敏感哈希,稳定分布,向量空间模型

参考文献

[1]陈晶.基于Lattice的语音文档分类[J].大众科技, 2010.1:55-56.

[2]Mayur Datar, Nicole, Immorilica, Piotr Indyk, VahabS.Mirrokni.Locality-Sensitive Hashing Scheme Based onp-Stable Distributions[J].ACM, 2004, 9:253-262.

[3]Alexandr Andoni.Nearest Neighbor Search:the Old, theNew, and the Impossible[M]2009, 6.

[4]常景鑫.基于混淆网络的语音文档主题分类[D].哈尔滨工程大学硕士学位论文, 2010.

上一篇:育成鸡的饲养管理下一篇:演艺建筑