字处理程序在汉字信息处理课堂教学中的应用

2022-09-11

中文信息处理是汉语言、汉语言文学专业的一门专业必修基础课。本课程主要介绍中文信息处理的基本理论、基本知识和基本技术, 初步培养学生运用基本技术进行中文信息处理的能力, 为进一步深造奠定基础。

中文信息处理的学科性质决定了中文信息处理是一门实践性的学科, 在介绍基本理论、基本知识和基本技术的同时, 如果能够给同学展示一些自然语言处理的程序 (包括已经公开发布的软件和相关成果) 不仅可以使学生对中文信息处理有一个感性的认识, 而且可以提高学生对中文信息处理这门课程的学习兴趣, 减少单纯的理论介绍的枯燥性, 活跃课堂气氛, 提高课堂教学效果。本文主要基于以上考虑, 结合中文信息处理的学科性质以及我们几年中文信息处理课堂教学的实践, 对汉字信息处理比较成熟的一些软件和成果在课堂教学中的应用做一些介绍和探讨。

1 字处理程序在汉字信息处理课堂教学中的应用

中文信息处理要解决的首要问题是汉字信息处理。汉字字量较大, 数以千计, 如何把这些汉字输入计算机成了中文信息处理的首要问题。

为了使计算机可以输入、显示、输出汉字, 需要研究汉字的属性信息, 具体包括字量、字频、字序、字形、字音。

在介绍汉字字量的过程中, 我们结合汉字编码的知识写了一个可以生成国标GB2312《信息交换用汉字编码字符集》所收6763个汉字的小程序。该程序的源代码如下:

该程序运行之后可以生成一个文本文件gb2312-80.txt, 文件内容包括GB2312《信息交换用汉字编码字符集》所收的6763个汉字和符号以及各自机内编码的十进制显示。

这个程序虽然比较简单, 但可以让学生对汉字的数量和汉字的编码有一个感性的认识。另外还可以了解汉字的编码空间, 以及汉字和西文编码之间的不同之处, 以及为什么不能简单地像西文一样使用一个字节来表示汉字, 因为一个字节可以表示的符号数量有限, 一个字节8个二进制位, 最多可以表示255个字符, 这对于几千甚至几万汉字的表示来说是远远不够的。

汉字的另外一个重要的属性是字频, 字频在字表的制定, 汉字的字形识别输入、语音输入、甚至是编码的输入方面都有广泛的应用。在教学的过程中如果能够设计一个程序, 可以统计字频, 不仅可以让学生了解字频的概念, 而且可以让学生对中文信息处理的基本技术有一个感性的认识。基于这样的想法, 我们写了一个简单的汉字字频统计的程序。

程序用一维数组元素表示每个汉字出现的次数, 用数组的下标来表示汉字的机内码, 这样就在汉字和出现次数之间建立了对应关系。每次读取文件的一个字节, 看看这个字节数值的范围, 如果该数值小于128, 则表示该字符为单字节西文字符, 不处理。重新读入一个字节, 如果该字节的十进制数值小于176, 则表示要读入的字符为非汉字字符, 继续读入一个字节后, 不做处理。如果读入的字节的数值不属于以上两者, 则继续读入汉字的第二个字节。然后计算表示该汉字频度的数组元素的下标, 并使该数组元素加1。使这个过程循环进行直到文件结束。把这个程序编译之后生成一个可执行程序, 把待统计汉字频度的文件与可执行程序放到同一个文件夹下面, 运行该可执行程序就会生成一个包含每一个汉字频度的文本文件。

这个程序可以使同学进一步了解汉字的编码空间, 了解中文信息处理的基本技术, 中文信息处理的学科性质, 以及计算机技术在语言学研究中的应用。

2 字处理软件在课堂教学中的应用

汉字的输入包括汉字的字形识别输入、语音识别输入和编码输入, 这是汉字信息处理的主要内容。

在课堂教学中, 我们结合了汉字识别软件——“汉王文本王”来介绍汉字字形识别输入。汉王文本王是北京汉王科技开发的一款扫描识别软件, 可以直接把图片识别成可以编辑的文本。识别图片的步骤是先打开待识别图片, 如果需要, 进行一个简单的调整:自动倾斜校正等, 选中待识别文本, 然后选择“识别”菜单中的“开始识别”就可以把图片识别成文本, 经过处理之后, 可以把识别后得文本保存成文本文件。识别之后的图像如下。

识别之后可以同时显示原文和识别之后的文字, 以便校对。每一个字形经过识别之后都列出了所有可能的文字, 这些文字按照可能性的大小进行排列, 以便用户选择。总的来说这个软件识别正确率还是比较高的, 这也反映了中文信息处理技术发展的成熟。结合这个软件, 可以让学生更好地理解汉字字形识别的原理和步骤, 了解字频甚至语言学知识等在汉字字形识别中的应用, 同时也了解这个软件的应用, 在以后的学习和工作中都可以应用。

语音识别的基本思想和汉字字形识别很相似。我们结合了微软office的语音输入来介绍了汉字的语音识别——特定人连续语音识别, 达到了很好的教学效果。使用word的时候, 点开“工具”菜单, 选择语音, 经过15分钟左右的一个简单训练, 就可以达到很高的识别率, 可以使用语音来输入。虽然现在使用起来有点别扭, 可是这可能展示了一个发展方向, 结合比尔盖茨关于计算机未来发展方向的描述, 可以更好的让学生了解中文信息处理的美好前景。

The future of computing is the computer that talks, listens, sees, and learns.That is what is being created at Microsoft Research.

Bill Gates

3 汉字信息处理成果在课堂教学中的展示

经过很长一段时间的努力, 汉字信息处理技术发展得已经比较成熟, 很好的解决了汉字的输入、存储、输出的问题, 这方面的研究成果也比较多。在教学的过程中我们主要介绍了《多功能现代汉语字典》和《汉字义类信息库》, 可以让学生了解汉字信息处理在语文教学中的应用以及在自然语言理解研究中的应用。

《多功能现代汉语字典》是在对现代汉语汉字属性信息充分了解和研究的基础上, 收集了现代汉字形、音、义及其应用的各种信息的电子辞典, 具有容量大、查找快的特点, 可以从不同角度对汉字属性信息进行检索。

该字典适应面宽, 雅俗共赏。具有多种功能, 除了正字形、标注音、作释义之外, 还增加了字音示范朗读、笔顺动态静态演示、部件拆分图示、古今文字演变图示、字理讲解, 等等。声形共呈, 动静相配, 图文并茂, 充分体现出多媒体的神奇魅力。严格遵从国家有关的规范标准, 包括字级、字形、读音、部首、笔画数、笔顺、部件等多种规范。

可以进行直接输入汉字进行检索, 也可以利用拼音、笔画或者部首来进行检索, 检索方式多样, 对汉字的信息描写也十分全面。比如对汉字“烟”的描述, 就包括了字音字义、字形、部件笔顺等等。这个辞典很好的展示了汉字信息处理的研究成果及其在语文教学中的应用。

《汉字义类信息库》是描写汉字语义属性信息的数据库, 旨在为“国标G B-2 3 1 2”的6 7 6 3个常用汉字建立包含读音、义项、同音、同形、语义类、词性、成词与否等信息的数据库, 为汉语研究, 特别是汉语信息处理研究开发一个基本资源。《汉字义类信息库》的建立不仅要满足人学习、研究汉字的某些需要, 而且要满足计算机进行汉字、汉语信息处理的某些需要, 因此汉字义类信息库的建立不仅要适合于人读, 而且要适合于机读, 在信息库的收字立条、结构的设计、属性的确定、属性的描述及信息的存储等方面都充分考虑到了“人机”两用的特点。该信息库的展示不仅可以使同学了解汉字属性信息在自然语言理解中的应用, 而且可以使同学看到语言学知识在中文信息处理中的作用, 使同学了解到中文信息处理最前沿的知识。

在教学中我们发现很多同学对中文信息处理的具体应用知之甚少, 甚至经常问中文信息处理到底是用来做什么的, 这些软件的展示以及我们举的一些实际生活中的例子也许会对回答这个问题有所帮助。总的来说, 这些程序和软件的展示很好的活跃了课堂气氛, 提高了同学们学习本课程的兴趣, 加深了同学对汉语汉字信息处理的理解, 提高了教学效果, 得到了同学的认可与好评。

摘要：中文信息处理是一门边缘性学科, 具有很强的实践性。汉字信息处理是中文信息处理的首要问题, 为了解决汉字的输入、存储、输出等问题, 需要研究汉字的属性, 这些属性信息相对比较抽象, 可以通过一些程序来进行演示, 以提高学生的感性认识。汉字信息处理技术已经发展得比较成熟, 可以利用的成果也比较多, 可以适当的作些介绍, 以提高学生的学习兴趣。

关键词：汉字信息处理,课堂教学,字处理程序