唐诗字频熵分析与通俗性定级

2022-09-11

中华民族的诗歌艺术源远流长, 从我国第一部诗歌总集《诗经》到规模宏大的《全唐诗》, 其数量之大、内容之广真可谓浩如烟海、灿若繁星。以个人之力, 不要说熟读全部4万余首《全唐诗》作品, 即便是在数日内对某一位诗人的诗篇做出一个定量的评价也是件不容易的事情。因此, 对《全唐诗》的研究主要集中于个案研究。所幸的是自计算机运用到中文自然语言处理过程以来, 中文信息处理有了飞速的发展, 诗歌的计算语言学研究也有了起步[1～3]。但是, 像《全唐诗》这样重要的古代文献, 计算机辅助研究成果却寥若晨星, 且研究的着眼点主要集中于遣词用韵、注音、“词”提取、农医花草等方面[4～6]。由于古音与今音差距很大、古诗语言精炼基本上以字为词、诗有浪漫夸张, 往往给上述研究带来很大困难。如何在宏观方面及定量方面把握《全唐诗》同一诗人作品之间及不同诗人作品之间的关系, 成了颇有价值的研究课题。例如, 要把部分唐诗选入中小学不同年级的语文课本, 有没有将《全唐诗》的语言通俗性等级作为标尺供编选人员参考呢?又例如, 在比较两位诗人的写作风格谁更趋向通俗时, 是否有定量的标准?某篇作品为何在古代受追捧而在现代却遭冷遇?这其中有没有语言通俗性方面的因素?为回答这些问题, 我们做了基于古代和当代字频熵的统计分析, 把庞大的《全唐诗》中每一首都计算出了通俗性指数, 并做了比较分析。

1 语料库的建立

语料库的设计是大多数自然语言处理系统的基础, 它直接影响到处理系统的结果。根据不同的研究对象、研究目的和研究方法, 应该采取相应的语料库, 并不是越大越好。从时间上来看, 以历史的眼光看待历史上的语言问题, 应该建立当时的语言语料库;以现在的语言标准分析流传到今天的古代作品, 则可以运用当代的语言材料库。从地域来看, 研究不同的方言作品, 应该建立相应的方言语料库。语料库的建设虽然耗时费力, 但是为了保证统计分析结果的可靠性, 还是值得投入精力去认真完成的。

本文以历史和当代的眼光来研究唐诗的通俗性, 相应地建立了两个语料库:前者基于全唐诗数据, 后者基于谷歌 (Google) 数据。

2.1 基于全唐诗的语料库

本文整理的全唐诗语料库, 主要参照了国学网和北京大学全唐诗系统[7～8], 并以上海古籍出版社1986年出版的《全唐诗》为蓝本做了相互印证校对。舍去卷序列号, 保留题名 (不含“一作”) 、一次作者名 (作者名不重复计算) 和正文。该语料库的基本指标为:共计9 0 0卷, 4 9 9 2 1首列于42865个标题下 (如:第一卷“帝京篇十首”标题下列有10首相关但独立的诗作) , 署名作者2653人 (含一题下多人对句作者) , 无名氏144和佚名842 (共986个) , 总字数2881211 (含冷僻字634字和缺字648字) , 单字7949个 (含冷僻字400个, 不含缺字) 。

冷僻字采用字征描述, 定义了6种基本关系符, 优先级依次增高:左右|, 上下/, 半包, 并列&, 替换←=, 优先 () 。表1中的汉字可依次表示为:{罒/離}、{反←又=圭}、{木| (囟/比) }、{毛瞿}、{真←具=凰←皇=悉←心=口}、{咼← (一丨) =人&←口=乂&←冂=囗}、{ (賏/缶) |瓦}、{ (睿← (谷←口=目) =貝) | (又/韭) }。冷僻字示例见表1, 其中字频值是该冷僻字在《全唐诗》里出现的次数。

2.2 基于谷歌的语料库

基于谷歌的字频是按照GBK18030汉字库提取的2008年4月的谷歌网站字频 (虽然谷歌的字频是动态的, 但是某一个时期相对稳定) 。由表2可以看出, 与全唐诗语料库相比, 两者前10位高频字中有一半的汉字重叠, 但顺序有所差异, 反映了古代诗歌用字和现代日常用字的继承与差异, 见表2。

3 通俗性的数学定义

经知网、万方等的检索, 对“通俗性”这一概念尚无文献给出过定义。本文提出了通俗性概念的一个数学定义表示式。

经过我们的计算, 在定级唐诗通俗性时, 使用字频等级虽与使用字频熵有小范围的差异, 但总体来说差异不大, 这与Zipf-Mandelbrot法则具有隐形一致性[9]。本文采用字频熵的形式来更方便地描述作品的用字通俗性。

首先, 定义语料库空间:Ωqts={全唐诗总字}和Ωgoogle={Google中GBK汉字总字}。设X={x1, …, xi, …, xm}={语料库空间的相异字}, Y={y1, …, yi, …, ym}={语料库空间中相异字的字频率}, 其中, 即xi的次数概率, 其中表示集合的势 (Cardinality) 即元素的数目[10], 定义:Ω'qts={ (x, y) }和Ω'google={ (x, y) }, 我们有:ΣΩ'qts (y) =ΣΩ'google (y) =1, 总概率和为1。类似地, 定义作品空间:Wvi={第vi篇作品总字}, A={a1, …, aj, …, an}={作品空间的相异字}, B={b1, …, bj, …, bn}=B:Wvi (a) ?Ω' (y) |a=x即作品中相异字aj映射到语料库空间中相异字xi的次数概率yi (当时, 令=1) , 以及W'vi={ (a, b) }。

再者, 定义信息量I (aj) 和相异字重复率P (aj)

由此给出字频熵形式的汉语作品用字通俗性Z的数学定义:

值得注意的是, 这里的字频熵有异于香农 (Shannon) 的信息熵的概念, 字频熵是建立在两个空间之上的, 而传统的信息熵则是基于一个样本空间的。根据计算的Z值大小, 我们可以方便地对全唐诗中任意一篇作品进行通俗性定级, Z值越小, 表示用字重复度越高, 即越通俗;Z值越大, 表示用字差异性越高, 即越个性。

4 全唐诗通俗性定级

将《全唐诗》全部作品 (题目+作者+正文) 逐一进行通俗性计算, 根据Z值排序取其前20首, 我们得到表3的结果。观察发现, 陆畅的《送李山人归山》“来从千山万山里, 归向千山万山去。山中白云千万重, 却望人间不知处”可作为古人启蒙幼儿的作品。白居易在Zqts排名中仅1首, 而在Zgoogle排名中3首, 说明在唐代并不太“入文人的流”, 换言之, 白居易先于同时代人引领了诗歌的通俗化潮流, 常被现代人列为初等语文读物。

按作者全部作品的分析, 我们选择了两组代表人物。第一组“温韦李”:温庭筠、韦庄乃“花间派”两位大师, 世人皆以“温韦”并称;而温庭筠、李商隐又是晚唐五代的齐名诗人, 合称“温李”。第二组“王柳刘”:王维和柳宗元的山水诗齐名, 柳宗元与刘禹锡乃三友之交[11], 同时三人的文学创作又都受禅理影响不小[12]。

由表4第一组我们可以看出, 温诗的Z值古小今大, 李诗的Z值古大今小, 该结果与李定广[13]的论述是一致的:“若就温李二人对唐末五代诗歌特质及发展走向的影响进行比较, 温庭筠的影响高于李商隐”、“在晚唐, 李商隐是旧传统的结束者, 温庭筠是新趋势的发扬者, 温庭筠还是比李商隐通俗一些”、“当今学界特别强调李商隐的重要意义, 而把温庭筠放在附属地位”;韦诗的Z值古今皆小, 这与李慧玲[14]的结论是一致的:“温韦虽然并称, 同为花间派中的大家, 但韦庄为诗学白居易, 朴素平直, 与温庭筠大为殊异。”

由表4第二组我们可以看出, 王诗的Z值较柳诗的Z值古今皆小, 反映出王诗更入主流诗词印象, 这与伍珺[15]的描述是一致的:“王维的诗意象鲜活明丽, 似以彩笔提之, 色调鲜明;柳宗元的诗则意象凄寒萧瑟, 似以枯笔描之, 色调黯然”;刘诗的Z值较柳诗的Z值古今皆小, 折射出作为诗人的刘禹锡较作为作家的柳宗元更擅长于诗作, 与陈琼光[11]的总结是契合的:“柳宗元善于著文属唐宋八大家, 刘禹锡长于工诗乃唐代诗豪;柳宗元诗次于文, 刘禹锡文弱于诗。”笔者在此有理由推测, 如果建立起唐宋散文语料库, 那么“柳刘”诗文之较会得出更加有趣的结论。

至于同一作者不同诗作以及不同作者不同诗作以及同一诗作不同年代的比较, 本文亦做了研究。值得注意的是, 通俗性是有时间性的。唐代通俗的, 今天不一定通俗;今天通俗的, 唐代不一定通俗。例如:表1提到的{罒/離} (字频33) , 在今天的字库里都无法显示, 却比今天常用的“这 (28) 、伟 (28) 、甜 (26) 、办 (25) 、串 (9) 、很 (8) ”等字在唐代诗词里更加通俗。因此, 要想计算什么年代语言环境中的通俗性就应该采用相应年代的字频库。表5给出了9位作者14首唐诗的分析结果。

761卷詹敦仁《复留侯从效问南汉刘岩改名龑字音义》一诗是全唐诗里比较典型的, 总字数229个, 单字198字, 却有20个冷僻字, 5个不常用生字。无论在全唐诗还是在谷歌里Z值都很大, 属最不通俗型的。李白的《长相思三首》在古代最通俗, 而王昌龄的《出塞二首》从今天的用字来看最为通俗。除了王昌龄的《出塞二首》古今排名差别较大外, 其他各诗在唐代与现代的通俗性基本上变化不大, 说明汉字从唐至今还是比较稳定的。若以作者来排名的话, 李白作品通俗性差距较大, 可以说是雅俗皆备。若将表5与表4进行对比, 读者还可以得出一些新的发现。

5 结语

基于字频熵的通俗性分级方法用在汉语言文学作品中有很好的写作风格标尺作用。通俗性定级可为汉语言分级教材的编撰工作提供有力的语言参考, 也可为诸如我国对外汉语水平考试的词汇等级测试提供一个定量的依据。对《全唐诗》进行的字频熵通俗性定级, 可以为学习、研究《全唐诗》的人提供一个新的参考范例。

摘要：本文通过对字频熵的分析, 提出了通俗性的数学定义, 为总量4万余首的《全唐诗》一一计算了通俗性指数;定义了6种基本组合字征描述关系符, 用于表示语料库或作品中出现的Unicode未支持的冷僻字;比较分析了李白、白居易、王维、温庭筠、柳宗元、刘禹锡、韦庄、李商隐等作者的作品, 获得了不同作者作品之间以及同一作者不同作品之间存在的量化关系;为诗人写作风格做出了一个数学的诠释。

关键词：字频熵,通俗性,唐诗,计算语言学