x水电档案检索工作研究

2024-04-23

x水电档案检索工作研究（共8篇）

篇1：x水电档案检索工作研究

x水电档案检索工作研究

水电档案是水电企业规划、建设及其管理工作的真实记录.它既是水电企业建设和发展的重要依据和必要条件,也是进行科研工作的信息资源.水电档案工作就是用科学的`原则和方法管理水电档案,为水电企业规划、建设、管理和科研等各项工作服务的工作.随着水电企业建设日新月异的发展,水电档案藏量日益丰富的情况下,做好水电档案的利用工作显得尤为重要.

作者：李晓曦作者单位：国电大寨水力发电厂,云南,罗平,655800刊名：科技致富向导英文刊名：KEJI ZHIFU XIANGDAO年，卷(期)：“”(6)分类号：G27关键词：水电档案现代化建设管理工作

篇2：x水电档案检索工作研究

尊敬的领导:

你好

本人于2011年6月到电站以来，在短短的一个月的时间里，是我发生了很大的变化。以前觉得书本上很空洞的东西现在清楚明了了许多，我真正的感到了“实践出真知”这句话的内涵，自己亲身实践的东西是自己永生难忘的，这也是人类得以生活得更好的根本原因；

1.从小的方面来说，我身切体会到了做好自己工作的重要性，在做事之前，要周全考虑到做工作的各个方面，特别是我们学理工的，更要有逻辑思维和一丝不苟的态度来对待事情，身为电站运行工作人员，必须认真负责，要记录好那些数据，并且要检查那些机组的运转是否正常，记录完一定数据还要分析，这些都是技术员必须认真做好的，因为分析数据可以早发现机组运行时的一些运行即将出现的问题，从而做好检查工作，不然的话，若机组一出现故障，那损失是相当巨大的。

2.深切体会到了学好专业学好知识的重要性，因为我们所学的是水利工程，和电息息相关，厂房内安装转轮直径(D1)为3.3m的灯泡贯流式水轮机及其附属设备，其主要作用是在水的冲击下转动从而带动发电机转子转动。额定容量为5.5MW水轮发电机出口电压为6.3kv、中性点设备及其附属设备，发电机其主要作用是机组在额定的转速下给转子磁极给定电压、电流与定子形成磁场，通过定子线棒切割磁力线产生感应电流从而发出电。调速器、油压装置及其附属设备，其主要作用是在6.3Mpa的压力在不同的水头下调整导叶、浆叶的开度大小有效利用水资源发电。励磁系统设备，其主要作用是给发电机转子提供直流电源（提供磁场）调节励磁电流大小来维持极端电压，调节有无功。水力机械辅助设备及管路系统主要有油、气、水三大系统组成，油系统主要有润滑油、透平油系统组成，其主要作用是供机组润滑及冷却。气系统主要有中亚、低压系统组成，中亚系统气主要作用是供机组调速器，低压系统主要是机组制动及全厂清扫。水系统主要有机组技术供水系统、全厂排水系统、全厂消防系统，供水系统其作用是供发电机冷却及润滑油冷却，确保机组在正常温度下运行，排水系统其作用是将全厂渗漏、机组密封、机组检修内部水排出厂外。一个月时间了解电能生产的全过程及主要电气设备的构成、型号、参数、结构、布置方式，对电厂生产过程有一个完整的概念。熟悉了该电厂的主接线连接方式、运行特点；初步了解电气二次接线、继电保护及自动装置，巩固和加强所学理论知识，为今后正式走上工作岗位打下良好基础。同时学习工人阶级的优秀品质，做到行动军事化、生活集体化，培养正确的劳动观念，为今后走向基层、服务基层奠定思想基础。初步了解发电厂、变电站生产的全过程。深刻了解发电厂、变电站主要设备；包括发电机、变压器、断路器、互感器、隔离开关、电抗器、母线的型式、构造特点、主要参数及作用，对其他辅助设备也应有所了解。着重了解发电厂、变电站的电气主接线形式、运行特点及检修、倒换操作顺序。了解厂（站）用电的接线方式、备用方式及怎样提高厂（站）用电的供电可靠性。了解配电装置的布置形式及特点，并了解安全净距的意义。了解控制屏、保护屏的布置情况及主控室的总体布置情况。了解发电厂、变电站的防雷保护措施。了解发电厂动力部分主要设备及形式、特点、参数，对电厂生产有完整的概念。深刻了解变电站电气一次部分，3）体会到了团结互助是必不可少的。

4）要学会虚心，因为只有虚心请教才能真正学到东西，也只有虚心请教才可使自己进步快。要向有经验的前辈学习，学习他们的工作态度和做事原则。这样能使我们少走很多弯路。

篇3：档案个性化检索研究

一、个性化信息检索与服务

个性化信息检索是指根据用户的兴趣和特点进行检索, 返回与用户需求相关的检索结果。它是一种能体现用户个性化特征, 满足个性化需求, 培养个性化趋势的检索方法。在个性化检索中, 检索条目与用户查询经历有关, 既可以是内容检索, 又可利用与其他事件的关系来检索, 也是以用户检索行为为中心的检索。这也是个性化检索与一般文档检索的区别。

个性化信息服务是既能对用户提出的要求提供最贴切的信息服务, 还能依据个体个性特征, 主动收集个体可能感兴趣的信息, 甚至预测个体可能的个性发展, 提前收集相应的信息, 最后以个性化方式显示给个体。这里包括两方面内容:个性化信息和个性化服务。个性化信息是反映个体个性特征的一切信息, 同时还包括个体特定的信息需求组合。个性化服务包括服务时空的个性化, 服务方式的个性化和服务内容的个性化。对于这些个性化服务首先要建立对用户的描述, 然后才能据此提供针对不同用户的个性化服务。用户模型是个性化服务的基础和核心。用户模型作为个性化服务的基础和核心, 因此用户模型的质量直接关系到个性化服务的质量。只有当用户的兴趣、偏好和访问模式等用户信息可以很好地被系统“理解”时, 才有可能实现理想的个性化服务。从用户信息中构建用户模型, 也就成为了个性化服务的核心和关键技术之一。

个性化服务系统中的用户模型不是对用户个体的一般性描述, 而是一种面向算法的、具有特定数据结构的、形式化的用户描述。相应的, 用户建模是指从有关用户兴趣和行为的信息, 如浏览内容、浏览行为、背景知识等, 归纳出可计算的用户模型的过程。

二、用户建模技术

为不同的用户提供有针对性的服务, 需要对用户的兴趣、习惯、历史行为等方面进行分析从而获取其个性化信息。对用户信息进行结构化描述, 构建反映用户特点的需求模型, 这一过程称为用户建模。用户建模是实现个性化检索服务的基础和核心。

为用户建模可以有效解决不同用户对相同提问信息的不同深度和广度的要求, 在加入用户模型之后, 传统的检索流程变更为带着用户个性需求查找的过程, 同时反馈流程也将针对用户的意见进行, 以提供更加准确的检索服务。通过建立用户模型, 可以管理用户的背景信息, 在查询一些跨领域信息的提问时, 考虑用户背景信息, 有助于更加针对性地提供用户真正关心的信息。通过用户模型对用户兴趣进行描述, 同时记录用户的查询行为, 对用户的查询历史和兴趣进行管理。

一般来说, 用户访问Internet的过程共包括以下六种信息:一是用户使用搜索引擎查询时输入的关键词;二是用户维护的书签 (Bookma rk) ;三是用户浏览的页面;四是用户浏览的行为, 包括用户在每个页面上的驻留时间, 对每个页面进行的操作 (如保存、打印页面、将页面存入书签等) , 鼠标和键盘的操作及用户浏览网页时眼睛的移动、表情的变化等;五是用户下载、保存的页面和资料等;六是用户手工输入的其他信息。

用户输入搜索引擎的查询关键词虽可反映用户的兴趣, 但它却不适合单独用于用户建模, 因为用户查询的关键词一般都比较简单, 无法来描述用户的兴趣, 查询关键词是用户检索信息的起点, 但不是检索信息的全部, 因此查询关键词对用户兴趣与意图的反映并不全面。

书签能反映用户的兴趣, 这是因为用户会把感兴趣的或重要的页面保存在书签中, 但是相对于用户浏览的页面来说, 书签中的页面数是相当少的, 并且用户并不一定会把自己感兴趣的都保存在书签中, 因此书签构建的用户模型也不能全面反映用户的兴趣。

用户浏览的页面可以全面地反映用户的兴趣, 用户浏览的页面由系统自动保存, 可实现自动用户建模。缺点是用户浏览的页面中可能包含用户不感兴趣的页面, 因此在使用用户浏览页面内容构建用户模型时应避开噪声页面。

用户浏览行为可以反映用户的兴趣, 如用户保存某个页面, 或者在某个页面上驻留的时间较长, 说明用户对该页面感兴趣。但在建模时由于浏览行为对用户兴趣的体现需要以浏览页面为载体, 因此用户的浏览行为必须与浏览页面相结合才能构建用户模型。

用户下载、保存的页面资料等也能较好地反映用户的兴趣, 因为只有用户认为感兴趣或重要的文档, 用户才会下载和保存, 这些经用户保存、整理的文档能够反映用户长期关注的主题, 这种信息为用户的背景知识。

用户手工输入的有关用户兴趣特点的信息也可作为用户建模的数据来源之一, 如用户感兴趣主体的关键词、对浏览页面的感兴趣程度等, 在自动用户建模技术尚不成熟的情况下, 用户手工输入的信息是用户建模的重要来源。

综上所述, 在以上六种信息来源中, 用户浏览的页面和浏览行为最能全面地反映用户的兴趣;用户的书签和保存整理的文档虽不能全面地反映用户的兴趣, 但能很好地反映用户关注的信息;用户输入搜索引擎的查询关键词不宜单独用于用户建模。

三、用户模型的建立

用户兴趣模型是指对于用户感兴趣的信息的可计算描述, 是所有其他智能化功能的基础。一般用户兴趣模型采用词频法, 其中的用户兴趣用二元组表示 (兴趣词条、兴趣权重) , 在词频中考虑到各个词条在文档中的不同位置, 体现了词条的不同重要度;以及各文档在网页超链关系中引用与被引用情况, 又体现了文档的不同重要度等因素。

用户兴趣的生成与更新算法是整个用户兴趣模型的核心内容。假设用户输入的检索词条经过词干提取 (对中文还有词条切分) 等预处理技术之后为q (q1, q2, …, qk) , 在初次检索之后, 返回一些查询结果, 得到一组页面D (d1, d2, …dn) 。首先计算词条qi的权值wi, 我们采用词频法, 即计算词条qi在文本D (d1, d2, …dn) 中出现的频度sij, j=1, 2, …n, 这些频度的总和来作为词条的权重, 即wi=∑s ij, 这样我们就得到两个向量q (q1, q2, …, qk) 和w (w1, w2, …wk) , 将兴趣二元组 (q, w) 加入到用户词典中。用户词典是由词条和权重组成的二元组的集合。

用户个人兴趣随着时间而不断变化, 输入检索词也会不断地变化。因此我们结合用户输入的检索词条和用户对检索结果的反馈信息, 不断地对用户词典进行更新维护, 及时反映用户个人兴趣的变化。当用户每访问一个页面就对兴趣知识调整一次, 实现了兴趣更新的实时性, 同时又避免了对整个缓冲区页面的重新学习。

用户输入检索词条q后, 首先判断词条是否已存在于用户词典中, 如不是, 按照前面提到的方法, 计算词条在页面中的权重, 将词条和权重的二元组加入到用户词典中。假设原有词典为{ (q1, w1) , (q2, w2) … (qm, wm) }, 新输入的词条q (q1, q2, …, qk) , 数量为k, 那么得到新的用户词典{q1, q2…qm+k}, 其对应的权重为w={w1, w2, …wm+k}。检索之后, 得到一批搜索结果, 用户不断浏览这些搜索结果页面, 用户当前访问到第n个页面Dn, 并给出页面明确的评估值ei ([-c, +c]间的整数) , 其中c为常数, 比如c=5。下面根据用户的反馈信息来调整权重, 使用户词典中的权重增加或减少从而实现用户词典的更新。这就需要重新计算各个词条在页面D中的频度, 设词条向量q在页面Dj中的频度Vj={S1j, S2j, …S (m+k) j}, 这样得到频度矩阵V= (V1, V2, …Vn) , 和页面的评估值向量e= (e1, e 2, …e n) , 那么新的权重向量w‘=w+e*V, 从而得到新的权重向量。在用户模型的建立中, 除了查询的兴趣词条, 权重因素之外, 其他的因素也可以考虑在内, 例如页面浏览时间, 词条的新鲜程度 (假设词条越新, 用户的兴趣越大) , 页面重要度等。考虑的因素越多, 所建立的用户模型也就更能趋向于真实的表示用户的兴趣。但是也相应地增加了用户模型建立的难度和复杂度, 对模型的建立和更新都提出了更高的要求。因此在实际的操作中, 要综合考虑模型的精确性、复杂性和实用性的平衡。

四、用户模型设计

基于用户模型设计的信息检索系统与一般的信息检索系统的最大区别在于对从用户界面接收的用户查询, 将首先利用用户模型予以分析, 同时结果的匹配、过滤也需要基于用户模型进行。通过学习机制以及推理机制, 一方面学习了用户在信息需求上的偏好, 另一方面, 也可以对用户需求进行推导、归纳。下面是基于用户模型的检索系统的一般检索过程: (1) 用户输入检索请求, 系统对查询请求进行预处理, 分词或者本体等; (2) 进入用户模型进行查找, 查看是否为用户兴趣, 如果是则将与该用户兴趣相匹配的结果记录提取出来进行显示;转入 (6) , 否则, 进入 (3) ; (3) 进入用户模型中的历史查询行为记录, 检查是否曾查找过, 是则进入 (4) , 否则进入 (5) ; (4) 提取曾经查找过的相关记录, 同时对该次查询累计权值, 如果权值达到或者超过阈值, 则将该查询转入兴趣记录中; (5) 标识该次查询是用户没有进行过的新查询, 进行首次处理和记录; (6) 用户对查询结果进行评价, 将评价反馈给用户模型; (7) 将用户查询行为记录到用户模型, 然后结束查询。

用户模型记录了每个用户的兴趣集合, 同时系统还记录了每个用户的检索历史、浏览历史以及反馈信息, 并在此基础上利用一定的学习机制和推理机制进行用户兴趣推导。从上面的查询过程可以看出, 用户模型是检索系统的核心, 不仅仅是在一般的检索系统之上增加一层用户模型的功能, 而是系统的整个流程都与用户模型息息相关, 每一步操作都离不开用户模型的参与。

摘要：个性化信息检索是指根据用户的兴趣和特点进行检索, 返回与用户需求相关的检索结果。本文说明了个性化检索技术的发展, 分析了个性化检索的内涵和特点, 提出了用户兴趣模型的建立与更新的方法。

关键词：个性化,信息检索,用户模型

参考文献

[1]赵静.个性化信息检索及功能模型[J].图书与情报, 2004 () l.

[2]应晓敏.一种面向个性化服务的建模方法[J].国防科技大学学报, 2002 (3) .

篇4：x水电档案检索工作研究

关键词：电子档案；分级检索；系统研究

一、档案电子系统的优备化

（一）储存含量的优备化

传统保存信息录入工具比较多元化，在现代信息不够具有特色的时代，人们多用文笔、图文、磁带、相机等多种特色性功能的工具来记录一些我们想要保存下来重要的信息、录音等档案，现如今的电子化管理档案解决了最原始收存信息工具的欠缺，相对于原始传统录入工具，现一系列电子化管理有着不可比拟的优点，例如所占内存空间较大不用担心所收纳信息太多内存空间过小的顾虑，操作人员误删的重要文件可以在回收站重新打开。所以现代化档案管理的电子化有着以一比十的作用，随时随地的进行信息剪切、复制、备份等具有特色的现代化优点。

（二）建立储蓄样式的优备化

在对于有关人员所需保存的文本信息的保存时，可以建立一个虚拟的空间保存室用来进行保存，通过不同种类文本信息和表达文本方式的不同进行区分并按类排放，这样可以方便工作人员的分类查找所需信息文件，节约时间。

（三）方便、快捷的优备化

在有着专门存放档案信息的储存空间室，有关工作人员在进行查询方面有着便捷化的优点，可以对所需对应电子信息按照不同类别进行点击、搜索连接服务器进行观察或根据个人工作要求进行文本信息的录入，用以此来完善档案文本信息的全面化。

二、建立完善的档案管理电子化系统

一个完整的档案管理电子化系统的建立离不开传统系统的档案录入、储蓄系统的保存和访问权限的设置，需要这三者结合才能达到成熟的档案管理系统。

（一）传统系统的档案录入

现代化管理档案系统虽然有浓浓的现代化气息，但依然离不开传统的档案录入，我们在传统储存电子化系统中，对文件的输入、编排、录入等环节的基础上又加大对此系统的改良，成为符合电子系统的专业文本。

（二）储蓄系统的保存

在我们的档案管理系统完善之后，我们需要对重要的文本文件进行保存储蓄，当然，根据所需保存信息的个数进行编排分为不同的储存框，然后再根据其类别进行分放。在简单的存档设置中，可以自定义的大致分为简单的直线型和复杂的交叉型。

（三）访问权限的设置

在日常工作过程中肯定需统计文件的可见程度，一些文本文件属于机密文件，一般人是无法进行随意查看，所以为防止发生重要信息的泄露，我们需要在此系统上进行设置观看权限或设置访问密码，也就是所谓的检索系统，当有关工作人员需对重要文件进行访问时，必须通过此程序方可进行查看。

三、电子化储存系统的操作要点及其复杂化

（一）档案管理电子化系统的操作要点

1.档案管理电子化系统给人们带来诸多便利，虽节省了大量人力物力，但对人们技术含量有一定的话语权，当然这也和相关工作人员的细心密切相关，档案管理电子化的高效率工作要求必须有着完整的工作套路体系极其有关部门具有标准化的管理模式。这是难点之一。其中包括工作人员对电子文本信息的获取、电子文本信息的保存、档案电子化程序和文本信息的访问设置权限。工作人员需对电子系统的操作流程倒背如流，以保证工作的顺利进行，准确的使所获文本信息正确保存在所建的文本储存室，这样才方便有关工作人员对文本信息的查询阅读、检索系统的正常运行，如果我们所录入的文本信息与文件类型不符，严重则可使我们的日常工作受到干扰。

2.分级检索系统的操作程序。上文提出有些重要文本文档非特殊人员不得观看，以防止重要文本信息的泄露，所以加密工程就起到了关键性的作用，我们所讲的分级检索也就是分层工作检验，通常设置为两个环节，其功能效果大同小异，无非在特殊人员需要翻阅重要文本文档时进入的加密档案室所走程序，第一个为以所在职位的高低为划分界限，职位达到一定的级别才可进入加密档案储存室进行查阅重要的文本文档，反之职位未到达所设标准，则无权进行翻看，另一个就是设置访问权限，上文也粗略的介绍过，就是对重要文本文档进行加密设置，只有通过加密程序的工作人员才有权利进行翻阅查找。

（二）档案管理电子化系统的复杂化

1.在对于传统档案系统，电子系统所需技术含量、文本信息的录入方式都有一定的技术要求，所以其复杂程度可想而知。

2.传统的档案信息储存是用简单的纸张进行文本信息的录入，所以可以进行翻阅进行查阅对比，以此确认文本信息的可靠性，但现代的电子档案储存就相应的减少了人们对文本信息可靠性的确认程度。所以以现代的科技水平，在技术上有很大的上升空间。

四、档案储存文本信息的安全对策

在电子储存文本信息的过程中都是建立在同一个服务器上，所以对于文本信息的泄露存在很大的风险性，因此我们采用一些措施防止文本文档的丢失，上文提出的通过对文本文档的加密程序来增大文本文档的安全性是个比较实质性的一个方法，另外为防止文本文档的误删或丢失事件的发生，可采用对文本文档进行定时备份的方法，这样可以对丢失的文本信息进行恢复以此把信息丢失的危害性降到可承受范围。

五、结束语

在科技水平技术完善的现代化设施中，档案电子化系统已趋于完善化，虽然在实际操作过程中具有一定的难度，但相对于传统档案管理系统，电子化系统具有不可比拟的优点，为解决档案管理电子化系统的复杂程度，本文笔者通过简单粗略的介绍此系统的优备化，向外进行补充，明确档案管理电子化及分级检索的操作要点、复杂程度、解决档案等一系列程序，为简单、便捷的档案储存提供实质性的经验。

参考文献：

[1]董春明.对档案数字化建设的探讨[J].中国新技术新产品，2009（13）.

[2]杨安莲.聚焦电子文件管理前沿——国际电子文件管理研究热点及启示[J].档案学通讯，2007（06）.

篇5：档案检索系统深度开发应用研究

一、档案检索系统深度开发的指导思想和目标

(一)指导思想。对档案检索系统进行深度开发是为了提升优化现有系统的性能,设计一个效率更高,使用更方面的检索系统。在对档案检索系统进行深度开发时要注意工作的四个指导思想。

1.统筹规划。档案的建立和检索是一个复杂性比较高的工程。档案根据时代不同,种类不同,部门不同等方面分为许许多多的种类,在进行深度开发的时候要考虑档案的分类和检索的准确性。工程建设需要采用国际通用的“ISO9001”质量管理体系进行统一管理,从而确保工程建设的质量。要对工程建设中的“需求分析、设计、测试维护”等不同阶段的主要内容进行统筹规划,按照统一的标准进行设计和管理,从而更好地实现数字档案的整合和对数据资源价值的挖掘。

2.需求导引。进行档案检索系统深度开发的关键就是提高档案检索的效果和效率。而实现这一目的需要对档案资源进行分类索引,尤其是档案的关键词、短语等。要将这种供检索使用的索引需求体现在设计中。

3.科技创新。检索系统的深度开发主要依靠的是高新计算机技术的支持。在深度开发过程中会使用到大数据的存储、数据容量的合理压缩、数据传输及隐藏、数据的科学加密以及先进的文档处理等技术。这需要进行大量的科技创新,从而更好地保障档案资源的信息安全以及提高档案的合理利用率。

4.持续发展。之所以对档案检索系统进行更深层次的开发利用,就是为了提高档案资源使用的便捷度。而系统是否能够为企业内的用户提供便利,只有用户最有发言权。所以关于系统的深度开发是一个持续性的任务,在开发过程中要经常进行用户的体验使用,在使用过程中发现问题逐渐提高系统的性能。从而真正提高系统的专业性和方便性,实现系统开发的持续发展。

(二)系统深度开发的目标。通过分析以上四点进行检索系统深度开发的指导思想,可以确定系统开发的目标主要有三个。

1.实现数字档案资源的整合与深度挖掘。所谓“档案检索系统”,其最关键的基础和前提是“档案资源”。没有档案资源,进行系统深度开发没有任何意义。现阶段,系统使用的档案资源主要是数字类的资源,一方面包括之前纸质档案库转换成的数字档案资源,另一方面也增加了之前没有的声音影像等影音资料,数字资源的内容更加丰富。利用现代计算机技术,将不同部门,不同站点,不同分公司的数字资源进行联网共享就可以构建出整个企业的档案库,实现档案的科学整合,而且有利于后期对档案信息的价值进行更深层次的挖掘。

2.创新知识获得方式,提供多样的信息形式。在数字信息库建立之前,企业用户要想查阅企业的相关档案,只能在实体档案库获得纸质的档案。现在通过数字信息资源的整理和新型检索系统的建立,用户只要有企业档案查询的账号就可以随时随地调取任何站点的数字档案,不用考虑时间和地点的限制。

3.一站式检索企业的所有数字档案。对档案检索系统进行深度开发后,可以实现企业各部门,各站点所有数字档案的联网。在进行档案检索的时候,可以像搜索引擎一样展现档案库中存在的经系统查询到的所有结果,使得档案检索既快又准,提高企业档案的综合利用。

二、档案检索应用系统开发内容

对档案检索应用系统进行深度开发的主要内容包括四部分。

(一)可以实现数据整合和深层次挖掘的平台。现阶段,企业的档案管理系统包括多个不同功能的数据库。包括数据仓库、文本数据库、图像影音数据库等基本的信息数据库,还有用于联系各种不同数据库的关系数据库等。系统在使用的过程中主要是依靠管理调用关系数据库来实现各种检索功能,这也是检索系统运行的基础。实际使用中各种数据库中的异构数据无法实现兼容,利用粗集理论不能实现连续数据的处理。因此在进行系统深度开发的时候要利用新型技术建立新的数据处理平台,从而实现对数据库的数据的整合和挖掘。

(二)建立前端查询以及搜索引擎系统。建立一种跟百度和谷歌类似的查询窗口,方便用户在这个平台系统中进行基本的账号注册以及进行简单的档案查询并获得初始的检索结果。搜索引擎系统利用采集程序和访问程序,定时对系统内的所有数字档案进行访问查阅,获得相应的信息,并将这些信息整合建立索引数据库,作为进行档案检索的基础数据库。当用户进行索引操作的时候,根据键入的关键词,找到匹配数据,并将索引对应的资源库的摘要和地址反馈给用户,在检索结果中呈现.

(三)建立完善的中文分词系统。企业的绝大部分档案资源是中文资源或者影音资源。系统的用户也主要以企业内的中国员工为主。因此在实际进行检索系统应用的时候主要是以中文检索的方式。由中文搜索引擎的使用经验可知,利用中文进行检索的结果总是与我们的检索目标存在差异。这主要是因为计算机检索系统的识别问题。中文的句子表达以整句话为一个单位,而系统进行识别的时候则是以单个字或者单个词组为一个单位。举例来说,“我是一名管理员”,英文的表达方式是“I am an administrator”,计算机系统对英文的识别可以很方便的对每个单词进行识别,确认关键词。但是在进行中文识别的时候,如果分词不准确,可能会出现“名管”“理员”这样的错误识别。所以在提高系统对中文词汇的识别能力,并进行正确合理的切词。在系统深度开发的时候注意索引数据库的建立,通过自动导入或者人工添加的方式,加入一些常用的企业相关的索引关键词,从而提高系统对于中文分词的准确性。

(四)后台管理系统。任何系统都需要一个后台管理系统,便于日后对于系统的不断完善,在出现故障的时候也可以直接进行系统维护。对检索系统建立后台管理系统,一方面是便于档案检索系统用户的管理以及系统数据库的更新管理,同时也可以根据用户需要设定不同的访问权限,保障企业档案的信息安全,避免关键信息的外泄。

三、档案检索系统深度开发工程设计原则及技术指标

(一)档案检索系统深度开发工程设计原则。主要如下:

1.系统的先进性:档案检索系统的深度开发就是为了方便未来的使用。为了在未来减少再次开发的次数,提高系统的适用寿命,需要使用一些先进的开发技术,保障系统的先进性。现阶段在进行档案检索系统中比较常用而且可靠性比较强的核心技术有组件式开发技术、中文分词技术以及GSML文档处理技术等。

2.可扩展性以及信息开放性。利用组件式开发技术,将系统分为三层结构:用户层、数据层和中间层。用户层以客户端为主,便于客户进行操作同时获得检索的数据,不提供数据处理功能;数据层通过对数据库进行访问,获得相应的数据;真正的核心部分是系统的中间层,对数据层获得的数据进行科学处理,并通过用户层的客户端显示给用户,实现系统的开放性。当需要对系统进行升级维护的时候,用户层和数据层不需要进行任何操作,只针对中间层进行,从而提高系统的升级速度,保证系统的正常使用。同时也可以通过增设中间层的方式来对系统进行扩展。

3.稳定性和安全性。上面提到,系统的核心层面是中间层,其他两层结构对系统运行影响不大。进行深度开发的时候利用集群技术对系统中间层的组建进行配置,可以对中间层在运行中的动态负载进行平均分配。同时可以在不同服务器之间实现功能请求的分享,这样既可以在不影响系统运行的情况下替换故障服务器,也可以在正常运行的情况下增设新的服务器,扩展系统的运行内存,从而实现系统运行的稳定性。系统的安全一方面是体现在访问的安全,一般是利用DES等认证和加密技术来实现,避免异常访问;另一方面是档案系统中原始数字资源库的安全,为了避免数据的丢失和破坏,对数据库采用多重备份机制以及丢失数据的恢复机制,同时建立相应的日志记录系统,出现问题可以找出原因进行解决。从多方面保障系统的安全性。

4.易用易管性。在设计操作界面的时候要考虑用户的使用习惯,PC端推荐使用windows操作系统,如果开发手机端推荐使用安卓和苹果系统。在操作流程实际中以向导式设计为主,便于客户使用。同时设置“联机帮助”功能,通过预置的帮助手册为用户使用提供指导。针对管理任务,合理增加系统默认勾选对象,尽量实现对管理任务的“一键式”管理,从而提高管理的效率,使系统管理更加方便。

(二)档案检索系统深度开发工程技术指标。主要如下:

1.多种操作系统和多种系统数据库的支持。实现档案检索系统在多种操作系统上的使用,PC端以Windows系统为主,同时要兼容使用国产Linux系统和苹果电脑系统;开发手机端使用,兼容安卓和苹果手机系统。在数据库支持方面要支持现阶段使用最多的Oracle,Infomix,Db2和Mysql等数据库。

2.支持不同数据源的检索。一方面可以通过对数据库搜索的方式进行检索,另一方面要实现通过文件目录地址的方式进行检索,这种方式一般会更加地准确和高效。针对于不同类型的文件,系统深度开发的时候要设计不同文件格式之间进行转换解析的工具,以便于在检索的时候对各类文件的数据内容进行检索,避免出现遗漏。

3.检索服务的智能化。利用先进的智能技术提高档案检索的效率和准确度。常用的智能技术有相关度分析技术、扩展查询技术、信息聚类及分类技术和语义规则库技术。以语义规则库技术为例,利用该技术可以对键入的检索关键词进行分析判断,在进行档案检索的过程中会同时检索该关键词的同义词或者近似词,从而扩大了档案检索的结果,又避免了不必要的检索结果,提高了检索结果的准确性。利用这些只能检索技术可以满足大部分人对于档案检索的需求。

4.数据高效处理。利用先进计算方式和合理的索引设置对数据库数据进行快速处理。

5.中文分词技术。为了适用于企业用户,检索系统必须具备中文分词技术。通过在不断改进的过程中完善检索词库,依靠词库和更先进的分词技术提高中文分词的准确性,也提高系统的运行效率,节省用户检索的时间。

6.提高更多检索语法。多字段组合检索是比较常用的检索语法,能够使检索结果更加准确。通过系统深化增加检索的语法种类,增设操作符、运算符等语法检索规则。也可以设置特定检索规则。

7.操作简单、维护方便。检索操作要符合用户使用习惯,操作起来容易上手。通过构建合理的后台系统,保证在出现故障的时候可以进行后台维护。

四、档案检索系统深度开发工程的创新性

一方面真正实现“全文检索”的彻底转变。通过对档案检索系统进行深度开发,可以实现整个企业档案的联网,改变原来针对独立数据库的单一检索模式。在此基础上可以实现对企业档案数据的整合,有利于对档案资源的检索查询以及对整体档案价值的更深层次的挖掘。另一方面依据在进行系统深度开发中的实际工作,可以整理出一套既符合理论依据又具备实践经验的标准规范。作为一种规范创新,这些标准可以为以后其他企业进行相应的系统开发提供参考,有利于提高整个档案管理行业的工作水平。

与此同时,通过对系统深度开发工程的实施,能够有效改变企业在档案管理和档案检索上的现状,打破一直以来档案管理和查询中检索范围受时空限制的局限。为档案行业的发展打开了新的局面,也为日后整个行业发展积累了经验,奠定了基础。同时使企业职工甚至整个社会对于档案部门和档案的重要性有一个全新的认识,提高了整个行业的社会地位。

五、结语

企业通过对档案检索系统进行深度开发,于企业内部来说能够充分利用长期以来积累的企业档案数据,对未来企业制定规划决策和研究技术革新具有重要意义;于整个档案行业发展,能够提供一种参考,促进整个行业发展。

摘要：本文简单介绍档案检索系统深度开发的指导思想和目标以及档案检索应用系统的开发内容,分析在进行档案检索系统深度开发工程设计中的原则以及技术指导,研究档案检索系统深度开发工程的创新性。

关键词：档案检索,系统开发,创新

参考文献

[1]王占花.论档案数字化管理系统开发与实现[J].黑龙江科学,2014(12):197-197.

[2]张帆.档案信息资源共享平台问题[J].档案管理,2013(3):85.

篇6：x水电档案检索工作研究

【关键词】科技档案；服务方向；利用与保密；问题

How to improve the use of science and technology work hydropower enterprises Archives

Chen Zhi-yan

（Xinjiang Production and Construction Corps， Ken Watt Manas River Dam Project Construction Administration Xinjiang 832000）

【Abstract】This article describes the application of science and technology archives hydropower enterprises， specifically service orientation at work， improve working methods， proper use and confidential relationship， strengthen scientific and technological personnel file their quality construction， to meet the needs of enterprise development， the current file in the use of technology in our hospital Discussion carried think there is a problem in the process.

【Key words】Technology archives；Service orientation；Utilization and confidentiality；Issue

科技档案是一种潜在的资源，其自身的价值只有经过开发利用，才能转化为物质财富，创造出可观的社会和经济效益，这在当前社会主义市场经济发展中已得到了充分体现。水电工程设计档案，是水电站建设从选址到电站建成最后发电整个过程的真实记录。科技档案工作环节包括积累、管理和利用。就三者关系而言，积累是基础，管理是手段，利用才是最终目的。所以水电工程科技档案的中心工作就是提供利用，将“死”档案变成“活”档案，为水电企业自身发展发挥最大效益。如何才能正确搞好水电企业科技档案的利用工作，适应本企业主业发展的需要，更好地为水电工程建设服务呢？下面根据我从事多年科技档案工作的经验谈一些认识。

1. 明确服务方向，改进工作方法

1.1 随着西部大开发战略的实施，新疆地处祖国的西部边疆，加速新疆的开发建设，不断提高各族人民的生活水平是新疆社会稳定的关键。玛河流域做为新疆经济较为发达、兵团经济份额较大的一个特殊地区，一直是建设边疆稳定新疆的一支重要力量。肯斯瓦特水库是目前兵团唯一的一座拟建大型水利工程，它的兴建必将使该区经济进入一个新的发展时期，对新疆的稳定和发展带来新的机遇。

1.2 肯斯瓦特水利枢纽工程是玛纳斯河流域规划推荐的一期工程，具有防洪、灌溉、发电等综合利用功能。枢纽工程由拦河坝、右岸溢洪道、泄洪洞、发电引水系统组成。水库正常蓄水位990m，最大坝高129.4m，总库容1.88亿m3，控制灌溉面积316.30万亩，电站装机容量100MW，设计年发电量2.723亿Kw.h，属大（2）型II等工程。兵团已把水电开发作为支柱产业，水电建设的又一个春天已经到来，这必将促进水电企业的发展壮大。我单位近年施工任务十分繁重，合同额及开工项目成倍增加，与此同时科技档案的利用量也与日俱增，充分说明了科技档案与企业发展的关系越来越紧密。在水电企业里，信息档案部门不能直接创造产值，它的主要工作职责就是坚持为企业生产、经营、科研、教学和各项基础建设服务，促进企业科技成果向现实生产力转化。作为信息档案部的科技档案工作人员必须转变服务观念，改进工作方法，才能更好地服务于企业。

（1）科技档案工作人员必须打破传统单纯的“看摊守库”、“坐等上门”的旧观念和旧习惯，在服务方法上，要由过去的被动服务变为主动服务、超前服务；在服务方式上，在不损害国家利益、企业利益的同时，科技档案要由封闭、半封闭变为开放式，最大程度实现科技档案的自身价值，更好地为企业的发展建设服务；在服务手段上，逐步由手工管理向计算机管理过渡，提高工作效率和服务质量。

（2）熟悉档案馆资料、了解需要。作为科技档案管理人员必须熟悉掌握、了解档案室的全部科技档案的数量和种类，以及它们的价值、质量和完整程度、准确程度、利用程度等，而决不是仅仅局限于对科技档案库房位置的排列和分布。

（3）科技档案工作人员要经常到科室，到第一线去，了解设计、生产、科研、基建和各项管理工作的实际需要；了解本单位生产管理、设计产品流程以及质量要求；掌握不同用户对科技档案的不同需求及其规律，以制定具体的服务方向和服务措施，做到主动服务和超前服务。

2. 正确处理利用与保密的关系

社会主义市场经济的发展和完善，带来了竞争机制和挑战意识。企业的科技档案是企业的无形资产，它首先为本企业生产、经营和基础建设服务。企业的科技档案工作人员必须保护好科技档案这笔巨大的无形资产，正确处理好利用和保密的关系，使利用工作和保密原则两不误。

（1）大力宣传、执行《档案法》和《保密守则》。在科技档案利用工作中做到：既坚持保密原则，又不影响借阅利用。当企业在参与市场招投标工程项目时，借阅有关科技档案必须具备相应的手续（按借阅制度或相关领导的指示），才能查询借阅；在手续完备的情况下，使用机密性强的科技档案，利用人一般在档案阅览室内利用，不外借，防止泄密。endprint

（2）档案工作人员必须了解每年度单位生产任务、工作计划和科研活动，同时根据工作进程提供相应的科技档案材料，以满足企业正常生产的需要，正确处理好利用与保密关系。

（3）严格按密级范围、内容的密级程度划定保密等级。避免因为保密过严，对内进行不适当的限制，影响科技档案的利用，从而阻碍科技成果向现实生产力的转化；密级划定过宽，则会影响企业利益，给企业带来损失。

3. 加强科技档案人员自身素质建设，适应企业发展的需要

（1）作为水电企业的科技档案管理人员要加强自身素质建设，不仅要具备较强的科技档案管理专业知识，还应该学习了解一些水电工程的基础知识，以便及时准确地为工程设计人员提供科技档案利用，实现科技档案管理工作的目的。同时档案工作人员还必须加强计算机的学习，这样才能适应现代企业发展的需要，更好地为企业经营生产服务。

（2）以本人工作实践为例，曾经有一位工程设计人员来借阅两个水电工程关于边坡滑坡的档案，当时在计算机上应用逻辑关联词并按工程名和“滑坡”关键词进行检索，结果只有一个工程满足，另一个工程始终无法找到。究其原因是在水电工程中边坡滑坡的另一种提法是“蠕滑变形体”。由此可见，了解水电基础知识对科技档案利用工作的重要性。

4. 对目前我院科技档案在利用过程中存在问题的思考

4.1 标准化、规范化，是档案管理的重要手段之一，是实现档案管理现代化的重要前提和基础，可以为档案管理软件创造一个良好的应用环境，加快检索速度，提高利用效率，发挥档案信息共享优势。就我院档案工作目前情况看，在标准化建设方面做到了有章可循，档案管理工作的各个环节都按《档案法》和本院贯标文件执行。具体方法是：从工程确立或立项开始到工程最后结束投入运行，科技档案部门对工程产生的科技文件材料实行跟踪管理，并主动与项目负责人联系，将《科技档案分类编号办法》实施细则分发到他们手中，由他们协调各专业并与档案部门协商确定档案编号，这样使档案的编号更科学，流程更清晰。但在一些细小问题上仍存在不规范情况。以1∶1000测绘地形图为例，在我们的检索工具里有四种著录方法：（1）1∶1000（我们常用的著录方法）；（2）1∶1千；（3）1/1000；（4）1/千。由于著录不规范，严重地制约了计算机的检索，影响了检索效率。解决办法是，在我们输机建库时必须统一著录规则并加备注说明。

4.2 关于科技档案现代化管理问题，由于种种原因造成我院科技档案计算机管理还处于相对落后的水平，软硬件设备亟待更新，与现代化水电企业的发展很不协调，与同行业相比也存在较大差距。在档案管理工作中计算机尚处于单机运行、条目式管理，是一种以计算机模拟传统档案管理方法的模式，没有彻底突破老框框，更没有较大的创新和突破。对此应当有清醒的认识，“知不足而奋进”，必须迎头赶上。目前，我院主管领导十分重视此项工作，信息档案部正抓紧时间制定计划和方案着手改变这一状况，并且根据我院具体情况选用了北京“理政”的设计院管理信息系统软件，同时还将更新一批设备等，相信在年内就能见到实际成效，使我院的科技档案管理工作迈上一个新台阶。

4.3 关于科技档案的编研工作问题。科技档案的编研工作是主动地、广泛地、系统地开发利用科技档案信息资源，使其尽快转化为生产力的一种有效方式。就我院目前情况看，缺少实用、有价值的科技档案编研成果。过去我们档案部门也搞过一些如《地形图汇编》、《档案法规选编》等初级编研成果，但随着计算机应用于档案管理，这些编研成果已经远远跟不上科技档案管理发展的需要。笔者认为要提高档案服务水平，提高档案利用价值，就要本着“存真、提炼、适用”的原则继续开展档案编研工作，当然首先要解决人员和经费问题，否则就成了“巧媳妇难做无米之炊”。

篇7：x水电档案检索工作研究

1.东部—以深圳市图书馆和深圳市档案馆为例。(1)深圳市图书馆。第一,深圳市图书馆的首页就设置了检索入口,读者可以通过“任意词”“、书名”“、作者”“、关键词”“、ISBN”“、索取号”和“出版社”检索图书、报刊、电子书、音像资料等;第二,深圳市图书馆网站还提供了很多人性化的服务,如通过“读者指南”,其中包含“入馆须知”、“资源分布”“、办证指南”“、借阅服务”“、自助服务”和“文献提供”等,读者可以了解深圳市图书馆所藏的主要图书类型、所在位置、服务项目、服务方式和服务时间为读者提供了极大的便利;第三,在“资源检索”一栏中,包含“馆藏资源”“、数字资源”“、视频资源”“、协作网目录”“、深圳地方文献”和“馆藏珍本文献”等内容,使读者快速遍览馆藏目录,提高了检索效率;第四,在“参考咨询”栏目中,同样设置了个性化的服务,如“问图书馆员”“、课题服务”“、网络导航”和“原文传递”功能,体现了“以读者为中心”的思想;第五,在“读者园地”中包含了“品牌资源”“、读者教室”“、每月新书”“、书刊推介”、“外借排行榜”“、赠书芳名录”“、读者荐购”和“读者联谊会”等内容,如其中的“每月新书”使读者能及时了解图书馆最近所更新的书目,“书刊推介”使读者们了解哪些书籍最受广大读者们的喜爱“,读者联谊会”加强了读者之间的交流与联系,加强了知识的传播。(2)深圳市档案馆。深圳市档案馆中设置了“场景式服务”,其中有“馆藏档案查询利用”和“广东跨库查阅利用”,在“馆藏档案查询利用”中又细分为“档案馆提供利用服务的法律依据”“、档案的利用形式”“、在深圳市档案馆和深圳市城建档案馆能够查询哪些档案”“、查询档案手续”和“查询利用档案的业务流程图”。而在“广东跨库查阅利用”中又分了“系统介绍”“、申请检索流程图”“、利用者注册、登录”“、利用检索”和“利用申请”五个部分设置了登记、检索、申请、查阅、复制和缴费等功能,在“利用检索”中还提供了简单检索和复杂检索。在检索界面中的“档案出处”可选择深圳市档案馆、广东省档案馆、广州市国家档案馆和珠海市档案馆(含文件中心),可看出这四个档案馆实现了馆际联合,实现了档案信息资源的共享。

2.中部—以武汉市图书馆和武汉市档案馆为例。(1)武汉市图书馆。第一,武汉市图书馆首页提供了检索入口,读者可以通过“著者”“、主题”和“索书号”等作为检索项检索图书、期刊、报纸、学位论文和会议论文等;第二,在“读者园地”中,设置了“书目查询”“、预约/ 续借”“、阅读推荐”“、读者赠书”“、图书漂流”“、读者互动”和“网络导航”等内容,为读者借阅图书和知识的交流提供了便利;第三“,教育培训”中包含“‘武图学堂’公益培训”“、读者信息素养培训”和“数字资源应用培训”等内容,为读者在信息检索知识、技能等方面的教育、培训提供了很好的平台。(2)武汉市档案馆。第一,武汉市档案馆网站中设置了“查档大厅”,其中包括“馆藏指南”和“预约指南”两大内容,在“馆藏指南”中,包含“案卷目录库”“、资料目录库”“、民国目录库”、“现行文件原文库”、“馆藏历史档案目录库”和“政府文件全文检索”,通过“馆藏指南”栏目,用户可以了解武汉市档案馆中所藏的档案全貌,为档案的查找建立了基础条件。此外,在这一栏目中还提供了检索入口,用户还可以以“分类号”、“题名”和“形成时间”进行馆藏档案的检索。而在“预约查档”一栏中,用户输入读者姓名和所查档案的内容,然后点击提交,武汉市档案馆的工作人员接到预约信息,就会给查档用户回复信息,也为用户查档提供了便利。第二,在“服务之窗”栏目中,包含“培训报名”“、常见问题解答”“、服务咨询”和“网上课堂”等内容,这些栏目都体现出了“以用户为中心”的思想,如“培训报名”是武汉市档案局主办的培训活动,通过参与其中,用户可以了解有关档案的知识以及查档方面的技能,有助于提高档案文献的检索效率。

3.西部—以云南省图书馆和云南省档案馆为例。(1)云南省图书馆。第一,云南省图书馆网站首页统一提供了检索入口,读者以“文章标题”“、文章内容”“、文章作者”“、录入者”和“关键词”作为检索词检索所需图书文献。第二,设置了“读者指南”“、网上续借”“、新书通报”、“书目查询”、“读者俱乐部”和“网上参考咨询”等内容,都为读者检索图书提供了良好的基础,如“新书通报”使读者及时了解云南省图书馆最近收录的图书文献,而在“读者俱乐部”中包含“热点书目”、“读者信箱”等内容,方便了读者之间知识文化的交流,也为读者对云南省图书馆在检索等方面的工作提出建议提供了良好的平台。第三,云南省图书馆提供了“免费开放服务”,在图书阅览、检索等方面放宽了限制,为读者获取所需图书文献又提供极大的便利。(2)云南省档案馆。云南省档案馆网站设置了“在线查询”功能,可对云南省档案馆政府公开信息中的“开放档案”进行检索。此外,从“局馆文件”中的“关于举办2013年第二期全省档案专业基础知识培训班的通知”可看出,云南省档案馆也进行档案知识的培训,一方面是宣传了档案知识,使社会增强档案意识,另一方面,也为档案信息的检索提供了方便。

二、综合档案馆从公共图书馆中可借鉴的经验

1.名称方面。从综合档案馆中的“综合”一词可看出,综合档案馆侧重馆藏,从所处领域来说,综合档案馆是文书档案、科技档案等的“综合”;从所形成的时间来看,它是历史档案和现行档案的“综合”;从载体上来分析,它是纸质档案、电子档案和声像档案的“综合”。而从公共图书馆的“公共”一词可看出,公共图书馆侧重开放、利用,为社会提供信息服务。尽管综合档案馆和公共图书馆同属于提供信息服务的社会文化机构,但是,社会用户从名称就可对两者作出感性的认识,现今,公共图书馆向社会开放程度很高,使公共图书馆受到社会的重视,各方面的发展是综合档案馆所望尘莫及的。因此,综合档案馆要想得到更好的发展,就要借鉴公共图书馆在开发利用方面的经验,一方面做好档案馆藏的整合、开发程度,积极做好档案文献汇编、出版工作,开发特色馆藏,增加档案信息资源的附加值,为综合档案馆的开放利用奠定基础;另一方面,做好综合档案馆的宣传、馆藏展览、专题展览等活动,提高综合档案馆的曝光度,此外,积极建设综合档案馆目录体系,完善档案目录,并适时向社会开放所收藏的馆藏目录和新增加的馆藏目录。让用户全面了解馆藏,提高综合档案馆馆藏的开放、利用范围。

2.内容方面。第一,公共图书馆中有“终身教育、用户培训”等内容,如2013年11月2日至3日,由云南省高校图书情报工作委员会主办,昆明医科大学图书馆承办的第二届云南省高校信息检索与利用课教学讲课比赛在昆明医科大学呈贡校区举行。通过培训,使参与者和观众都受到了信息检索知识的培训和锻炼,不仅提高了信息检索的意识,而且获得了在公共图书馆中进行信息检索的方法,增长了见闻。而综合档案馆却没有关于“用户教育、用户培训”的项目,毋庸置疑,用户来综合档案馆是为了有效率地检索到所需的档案信息,因此综合档案馆要尽可能地为社会用户着想,在今后的发展过程中可以引入“用户教育和用户培训”内容,使用户熟练掌握档案信息检索工具和手段。

第二,公共图书馆还有“科技查新”或“新书推介”或“新书通报”栏目,通过设置这一栏目,能够使读者方便了解公共图书馆近期所收录的新书,全方位地了解公共图书馆更新图书信息的最新情况,方便了读者的信息检索,同时,也有利于吸引读者的阅读兴趣,最终促进公共图书馆的发展。同样,综合档案馆也可以设置“档案查新”功能,当然,前提是要做好档案的收集、更新和档案文献汇编、出版以及开放档案等工作,大力宣传综合档案馆近期做出的档案文献汇编成果;一般而言,省级以上档案20年后才可向社会开放,省级以下档案10年后才可向社会开放,因此,对于解除密级的档案,综合档案馆要及时向社会通报,以便使社会用户广泛了解。“档案查新”能够使用户了解综合档案馆最近更新的档案,吸引用户的眼球,尽可能地为用户提供便利,从本质上来说,其属于宣传工作的一部分。

篇8：x水电档案检索工作研究

一、系统总体设计方案

移动互联民生档案系统的前期总体设计简图如下表示：

电脑、手机等智能终端，通过3G/4G/GPRS 或WIFI等通信手段，提交通信请求，经过UOML服务器处理的文档信息，可供授权用户查阅。

服务器可提供用户注册、身份认证、短信提示、风险防范等功能；对于经过身份认证之后的用户，服务器再授予一定的权限，允许用户在一定范围内检索相关民生档案信息；服务器还提供统一的查询平台。

用户输入查询的内容之后，数据由服务器发送到智能检索系统进行统一处理；由智能检索系统从多个物理数据库或专题库中检索出来，交由UOML服务器进行处理。

UOML是定义了非结构化文档操作通用功能的开放标准，可以实现文档、页、层、文字、图形、图像等元索的创建、编辑、检索和信息提取，可以满足各种应用程序对文档存储、展现、检索和安全的需求。

二、存在的问题

在上述的检索系统中，我们考虑到广大人民群众没有受过专门的检索培训，在授权库中采用全文检索技术，输出结果中突出显示目标关键词的基础上部分文字缺少的方法，以此来保障其它用户信息的安全。尽管如此，进入测试环节时，问题还是大量的产生了。

1、用户从开始向信息检索系统提问到系统输出检索结果的全部时间无法忍受。在一次检索过程中如果用户提交的是模糊查询请求，响应时间有时达到十几分钟。

2、档案检索系统对于提交的请求结果，有时达到几十页的搜索结果，且检索结果的相关性差，缺乏合理的排序和必要的组织、分析，与检索提问最相关的页面不能首先呈现给用户，用户必须要在众多的检索结果中寻找所需的信息，大大超过用户的接受能力。

3、用户表达的需求与获取的检索结果往往差异很大。

总结原因，系统虽然受到硬件条件的制约，例如网络和相关设备的技术限制，信息的处理速度尚难尽人意。但主要原因还在于档案检索系统在检索策略构造方面，专业性较强，系统透明度差，用户不能用自己所熟悉的方式查询提问，没有经过专门训练的用户很难从系统中获得自己所需要的信息，给用户一种望而却步的感觉，缺乏良好的交互性。基于关键词匹配的检索技术，不符合语义理解的需要，不能很好地理解用户的检索请求，不能区分关键词的同形异义，也不能联想到相关同义词、近义词，无法智能识别语义的内在关联，更不可能考虑到关键词所处的特殊语言环境，不仅给选用检索点带来困难，而且导致用户需要费时费力地对数以千计的检索结果进行手工筛选。

三、方案的比较

针对档案检索系统的缺陷和不足，分别用提升“硬件”、更新“软件”的方法来选择。目前将前沿的技术介绍如下：

1、并行计算与并行检索

并行计算指的是，将单个问题划分为多个较小的“子”问题，用多个处理器同时分别处理这些“子”问题来得到单个问题的解。多个可以同时工作的处理部件或处理器构成的计算机系统，称为并行计算机。并行计算系统包括并行计算机或多处理机系统。在并行计算系统中，不同处理器同时运行多个程序或者一个程序的不同进程，从而提高系统的运算速度。

并行检索则把用户提交的查询，通过代理程序对原始查询进行处理（如查询的分析转换或格式化处理等等），然后将处理后的查询发给搜索程序，搜索程序找到结果并进行处理（如排序）后返回给代理程序，代理程序经过必要的处理（如结果的归整、合并等）将结果返回给用户。

2、分布式检索

利用分布式计算进行信息检索称为分布式检索。主要特点在于：分布式检索通常处理的是地理位置分散的异构数据，不同地理位置计算机系统间通讯的开销比较大；分布式检索的数据规模相对较大，每个节点的处理能力又不尽相同，因此，分布式检索通常只选择某些数据子集进行检索，而不是像并行检索那样，需要返回每个数据子集的结果；分布式检索的对象的异构性使得统一描述和访问成为必须要考虑的问题。

3、语义搜索

通过理解自然语言的逻辑，通过分析用户输入搜索框内的词语，给出用户可能想要的搜索结果，来解决“问题式”搜索的难题。把信息检索从目前基于关键词层面提高到基于知识层面，具有智能化、人性化特征，对知识有一定的理解与处理能力，允许采用自然语言进行信息的检索，为用户提供更方便、更确切的检索服务。其工作不再拘泥于用户所输入请求语句的字面本身，而是透过现象看本质，准确地捕捉到用户所输入语句后面的真正意图，并以此来进行搜索，从而更准确地向用户返回最符合其需求的搜索结果。

但以上几种方法显然都不符合民生档案的实际情况。不提项目预算，就以充分挖掘并行计算和分布式计算的能力，还需要众多研究者和学者共同商讨；语义搜索引擎目前还没有成熟的产品问世。

四、符合民生档案特点的智能检索设计

经过我们的多次设计与比较，我们认为检索不满意的主要原因是分词设计上不合理造成的。之后我们采用IKAnalyzer分词器并自定义扩展字典设置，起到了较好的效果。

IK Analyzer 是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始， IKAnalyzer已经推出了4个大版本。在2012版本中，IK实现了简单的分词歧义排除算法，标志着IK分词器从单纯的词典分词向模拟语义分词衍化。采用了特有的“正向迭代最细粒度切分算法“，支持细粒度和智能分词两种切分模式；采用了多子处理器分析模式，支持：英文字母、数字、中文词汇等分词处理，兼容韩文、日文字符优化的词典存储，更小的内存占用。支持用户词典扩展定义。

我们的主要思路如下：

1、建立各类民生档案的专业关键词数据库。

2、利用IKAnalyzer分词器，把群众查询的字符串，分割成若干个关键词。

3、去取无意义的词，如：人称代词、语气助语，例如：我、他、的等。

4、提取关键词与各类专业数据库中的内容对比、分析，然后引导到各民生档案库中查询。

5、再通过关键词的全文检索找到相对应的内容。

例如：建立婚姻档关键词与低保关词库。当有人查询： “我叫张三现在是低保户要查1955结婚证明”系统可自动提取关键字，“张三”，“低保”，“1955”，“结婚证明”，从低保库中找到张三的其它信息之后，在婚姻库中找到结婚证明信息，从而快速高效的获取相关信息。

程序调用方法如下：

public class Test {

public static void main（String[] args） throws IOException {

String text="我叫张三现在是低保户要查1955结婚证明"； //创建分词对象

Analyzer anal=new IKAnalyzer（true）；