中文分词技术在交通管理系统中的应用研究

2022-09-10

随着交通需求的不断增长, 相应的各种交通信息也不断膨胀, 同时面对21世纪经济持续快速发展, 以及现代化国际大都市对交通管理的要求, 传统的交通管理手段已经远远不能适应现代化交通管理的需要, 交通管理系统的信息化建设是一项迫切和必须的任务。涵盖交通管理各个业务工作的交通管理综合信息系统中的信息检索子系统负责对交通数据中心的数据进行数据处理、数据分析、全文检索, 以实现精确、科学地提供综合信息服务、分析和预报等。中文分词技术是信息检索系统的基础, 为检索系统的其他模块提供服务, 本文通过对交通管理领域特点的分析, 提出了适合该领域内信息检索系统要求的汉语自动分词方法和未登录词识别方法, 建立了一套适用于交通领域内的中文分词系统。

1 交通信息检索子系统总体框架

整个交通管理检索系统包含检索模块、索引模块、信息抽取模块和本文所研究的分词模块, 分词模块为其它的模块提供支持, 信息抽取、索引建立以及信息检索都涉及相应的分词工作。信息抽取模块对需要进行信息抽取工作的数据提交分词引擎进行分词处理, 然后进行数据的提取工作, 索引模块对需要建立索引的数据提交分词模块处理后, 建立索引文件提供给检索模块使用, 检索模块根据用户或者其它部分的请求, 对请求的关键词等提交分词模块进行分词处理后进行相应的检索并返回检索结果。

2 中文分词模块的设计

2.1 切分词图

切分词图是本文使用的核心的数据结构。对于一个句子, 如果把两个汉字之间的间隔作为节点, 把一个汉语词作为连接两个节点的有向边, 那么我们就可以得到一个切分有向无环图。进行歧义切分前, 将待切分文本出现在分词词典中的每一个词用一条有向边在词图中表示, 得到文本的全切分词图。如“交通信号灯”的全切分词图如图1所示。

2.2 歧义词切分

设句子S由一系列词串w1w2...wn构成, 各个词串的联合概率P (w1w 2...wn) 决定了该句子的信息量。而将P (w1w 2...wn) 分解成条件概率的形式就为:

假设某一个词出现的概率只依赖于它之前出现的n-1个词, 即引入n-1阶马尔可夫假设, 自然语言模型称为n元模型。一元模型假设上下文无关, 没有考虑上下文的信息, 三元以上 (包括三元) 模型的使用会导致严重的数据稀疏问题, 在本文研究的交通专有领域中, 采用二元模型进行分词的建模分析, 即有:

为方便处理, 令

这样对切分文本的粗分处理就转化为: (1) 建立切分文本的全切分词图; (2) 定义词图中有向边的长度为-ln P (wi|wi-1) ; (3) 求解切分词图中使P* (S) 最小的N条路径, 即最优的N种粗分结果。求解最优N条路径本文使用了一种基于Dijkstra的扩展方法, 改进的地方在于每个节点处记录N个最短路径值, 并记录相应路径上当前节点的前驱;如果同一长度对应多条路径, 必须同时记录这些路径上当前节点的前驱;通过回溯即可求出N条路径, 即N种最优粗分结果;在对N种粗分结果进行未登录词识别后, 将未登录词按照普通词参与计算-ln P (wi|wi-1) , 得到每一种粗分结果的P* (S) , 最终P* (S) 对应最小值的粗分路径即为最终的分词结果。

2.3 基于角色标注的人名识别

(1) 角色定义。

将一个句子中的所有词划分为:人名的内部组成、上下文、其他词等, 称为中国人名的构成角色[3]。人名的部分角色构成如表1所示。

(2) 角色语料生成。

人名识别训练所用的角色语料库是在1998年1月份人民日报语料库基础上按照表1中的人名角色修正得到的。例如原始语料如下。

会/n上/f, /w我/r局/n局长/n赵国庆/nr指出/v, /w上/f半/m年/t全市/n交通/n安全/n形势/n总体/d保持/v平稳/a状态/n

相应的修正后用于人名识别的角色语料如下。

会/A上/A, /A我/A局/A局长/K赵/B国/C庆/D指出/L, /A上/A半/A年/A全市/A交通/A安全/A形势/A总体/A保持/A平稳/A状态/A。

(3) 角色标注。

假定W= (w1, w2, ..., wn) 是文本粗分后的结果, T= (t1, t2, ..., tn) 为角色序列, R是角色标注的最终结果, 则有:R=argTmax P (T|W) 。

为了减少参数空间的规模, 本文提出两个假设: (1) wi的出现只与其自身的角色ti相关。 (2) 引入上下文的相关性, 角色ti的出现与前一个单词wi-1的角色ti-1相关。则有:

使用文献[4]介绍的经典Veterbi算法得到R的最优标注结果, 然后对标注结果使用简单的模板匹配识别出人名。

2.4 基于词典的正向最大匹配地名识别

考虑到重庆市交通领域内的文本信息包含较多的重庆市地名而外省市地名较少的特点, 本文根据收集的地名及专有地名词表库采用最大正向匹配法进行地名识别, 收集的地名库中包含有82312个重庆地名, 基本上涵盖了在用的一般地名。地名识别流程图如图2所示。以“杨柳街附近出现拥堵”为例说明最大正向匹配法识别地名的过程。该句经分词粗分阶段后, 得到其中一个粗分结果为“杨柳/街/附近/出现/拥堵/”, 除地名未被识别出来外, 其他分词结果正确。采用正向最大匹配法, 检查切分碎片“杨柳”, 在地名词典库中查找, 存在以“杨柳”起始的地名, 即第一个字匹配成功;同理到第三个字均匹配成功;然后查找“杨柳街附近”是否在地名词典库中存在, 结果不存在, 由此可知能够最大匹配的是“杨柳街”, 合并切分碎片, 识别出一个地名;接着检查是否已匹配到词尾, 如果不是, 继续上述的最大匹配方法直到词尾, 否则输出地名识别结果, 此句地名识别结束。

2.5 评估选优

切分的目标是寻找句子S的一条概率乘积最大的词语序列, 亦即句子S的交叉熵最小的词语序列。对S的N-最优粗分结果进行未登录词识别后, 对于每一条识别后的切分路径, 在评估选优阶段将未登录词作为普通词参与计算相应的交叉熵, 得到交叉熵为最小值的切分路径为最终的句子切分结果。

3 实验与分析

本文实现的中文分词系统使用的词典包含180225条记录的词语表。使用的训练语料为收集的1998年1月份人民日报语料库和交通领域的语料库, 其中, 人民日报语料库包含893432个单词5347356个字符, 交通领域语料库包含近14万字。从人民日报中提取出包含有339230个字、104372个词的语料作为测试语料1;从交通领域内提取出包含有32496个字、13232个词的语料作为测试语料2, 对本分词系统分别进行在这两种测试预料下的测试, 测试结果如表2和表3所示。

表2和表3对三种切分算法做了比较。其中, F M M表示正向最大匹配分词法;I C T C L A S是中科院计算所研制的分词系统;N-Best是本文设计的对切分文本只进行N-最优路径求解的粗切分结果。实验结果表明, 在测试语料1即人民日报测试集下本文设计的分词系统的准确率和召回率没有ICTCLAS高, 而在测试语料2即交通领域内高于基于FMM分词方法和ICTCLMS, 结果证明本文设计的针对交通领域的分词方法是切实可行的。

4 结语

本文在分析交通管理领域特点的基础上, 给出了适合该领域内信息检索系统的分词方法。试验结果表明, 该系统在该领域背景下具有较高的分词准确率和召回率, 本文使用基于一阶马尔可夫模型的最小交叉熵模型进行歧义词的消解处理, 使召回率达到91.69%, 准确率达到90.45%, 证明本文设计的分词方法是有效的。

摘要：如何建立适于交通管理系统下信息检索子系统中的分词模块是提高检索性能的关键所在。本文在分析交通管理领域特点的基础上, 提出了适合交通管理领域的分词方法, 实现了适用于该领域内的分词系统。实验结果表明, 系统测试的准确率和召回率分别达到95.9%和95.1%。

关键词：中文分词,歧义切分,N最优路径,人名识别,地名识别