拼音汉字的优点分析论文

2022-04-15

摘要:汉民族文化对汉字取形方式的影响,分析汉字蕴藏的文化信息,汉字的构形理论的建立,使得汉字的结构化繁为简,使得原本看起来一个一个汉字有了一根贯彻其中的线索,找到汉字造字的规律。运用问卷调查法、文献资料法等研究方法,对汉语的优点和缺点,进行调查。今天小编为大家推荐《拼音汉字的优点分析论文(精选3篇)》仅供参考,希望能够帮助到大家。

拼音汉字的优点分析论文 篇1:

《细胞分析语言文字学研究》序

鲁川先生的大作《细胞分析语言文字学研究》出版问世,我向他表示最衷心的祝贺!

这部著作,是他近年来悉心学习研究的重要成果,也标志他在治学道路上又迈上了一个新台阶。

以他的资格,为之作序的当为老一辈语言文字学家,由此,作为后学,更加深切缅怀黎锦熙、郭绍虞、朱星等,我心目中、我所敬仰的独具慧眼的大师级语言学家,他们倘健在,当会给予我们多少启示、支持与指引呀!由于与鲁川先生相知共事两年有余,其间“奇文共欣赏,疑义相与析”,意气相投,自认遂为忘年挚友,这也许是他对我格外垂青惠顾的原因吧。于是,便不顾辈分资格,慨然应允为之作序。

鲁川先生是一位兼治计算机信息科学与语言文字学的两栖资深专家。毕业于哈尔滨工业大学,为我国第一批计算机专业大学生。先后被聘为北京信息工程学院客座教授、教育部语言文字应用研究所客座研究员,1987年被选为中国中文信息学会计算语言学专业委员会主任。出版有《汉语语法的意合网络》(商务印书馆,2001)、《汉字信息语法学》(山东教育出版社,2008)等著作;发表多篇论文,其中代表作为《立足汉语实际的信息语言学》(《语言文字应用研究论文集Ⅱ》,语文出版社2004)。

鲁川先生自称他拜的第一位老师为社科院语言所的范继淹先生,他的语言研究的良好素养,便出于范先生的导引;他拜的第二位老师为北京大学的徐通锵先生,由此成为了“字本位”的信奉者与研究者;他拜的第三位老师为徐德江先生,由此他认识到了结构主义语言学的弊端,也认识到了“字本位”理论的局限性,从而接受了徐德江的马克思唯物辩证法的细胞分析语言文字理论。

鲁川先生总结出徐德江先生在语言文字理论研究上的几个特点是:1.具有在马克思辩证唯物主义哲学根基上的高瞻远瞩的学术眼光;2.通过对第一阶段西方人创建的“普通语言学”的深入研究,大胆提出创新性的新理论;3.对作为中华民族灿烂文化的载体和智慧结晶的汉字有独特的深入研究,并在此基础上提出东方人创建的第二阶段真正的“普通语言文字学”新理论;4.按理论——实践——理论——实践的不断深化,以“字宝宝乐园”为基地进行了成功的实验;5.提出汉字“科学性、易学性、智能性、国际性、艺术性”的五大特点,为汉字走向世界,促进世界学汉语热潮作出了重大贡献。

就上述五点来说,鲁川先生认为徐德江堪称为哲学家、理论语言学家、汉语文字学家、语文教育家、成功的文化教育企业家。鲁川先生对徐德江在语言文字理论研究上的成绩与特点作出的评价,我认为是他通过深入学习、对比研究之后总结出来的,是客观、公允和恰当的,我完全赞同。

鲁川先生认为一百年来外国和中国在语言学文字学方面取得了一定的成就,但没有多少重大突破,是因为没能自觉运用辩证唯物主义来进行研究。徐德江是他所接触到的,自觉坚持运用辩证唯物主义细胞分析方法研究语言文字并取得重大成果的第一人。鲁川认为一个语言学家如果没有辩证唯物主义的哲学理论作支柱,在语言研究上只能是炒冷饭。他认为在语言文字研究上过分的自以为是,必然导致糊涂。鲁川在语言文字理论的研究上不断探索、思考、比较、扬弃,为求得真知苦苦追寻多年。比如:徐通锵认为,语言是现实的编码系统;鲁川认为语言是知识的编码系统;徐德江认为语言是认识的编码系统。经过比较研究,鲁川认识到:首先,人的认识往往与现实不完全一致;其次,人的知识系统只是通过归纳总结感性认识,上升而成的理性认识,而这些理性认识与现实,同样不可能完全一致,所以人们总在不断地修正自己的知识结构,以求更加接近现实。故此鲁川认为:徐通锵与鲁川的定义是不够科学的,而徐德江的观点则既包括了理性认识又包括了感性认识,而且这些认识在不断深化,以求逐渐接近现实。经过分析比较,鲁川接受了徐德江的观点,即认为语言是认识的编码系统。

鲁川先生在深入学习研究徐德江的马克思唯物辩证法的细胞分析语言文字理论的基础上,连续写了多篇文章。他对徐德江的语言文字理论,作了深入的剖析,以自己对语言文字研究的多年丰富积累和独到眼光及独特方法,全方位、分专题作了诠释与探讨,具有重要的意义与价值。这些文章均已发表,现又集结为《细胞分析语言文字学研究》一书出版。

鲁川先生在长期的教学与研究中,不断学习,历久弥新,形成了具有自己风格的研究方法和语言文字理论,体现了深厚的学术修养。比如:他十分善于将一般的叙述上升为理论,善于对一个复杂的语言文字现象用极为精辟的语言概括总结出来,他还善于将计算机语言应用研究与普通语言文字研究相结合,形成的理论及创制的术语使人读来耳目一新,令人叹服。他的大量生动有趣的实例、他的图解法,往往使复杂的理论叙述变得形象直观、一目了然。

鲁川先生在古稀之年(他笑言“古稀今不稀”),仍孜孜不倦地研究新的理论,不断接受新的知识,并且兴致盎然地探索真理,以此为人生的最高境界、最高追求,从中获取、领悟生命的真谛。他学而不厌,诲人不倦,全然没有老的概念。他的人格与精神深深感染着他身边的人,尤其令我感动与敬佩。跟徐德江与鲁川二位先生不唯书、不唯上、不唯己,一心追求真理的精神相比,恕我坦言,我感到当下,语言文字学界存在两种错误倾向:一为轻视理论,二为唯己自闭。

关于轻视理论,在下不揣冒昧地认为,是否包括两个方面:一是在研究中大多只注重语言文字事实的罗列与分析,而轻视语言文字理论的创新与研究;二是在研究中大多只遵从以索绪尔及其流派为核心的旧的西方语言文字理论,却不能很好地自觉运用马克思辩证唯物主义作为语言文字研究的指导思想。

关于理论的重要性,陈力丹(中国人民大学新闻学院教授)说:“任何实际的行动,其实都是在一定的‘理论’下付诸实施的,只是许多时候没有意识到‘理论’在发挥作用。恩格斯说:‘无论对一切理论思维多么轻视,可是没有理论思维,就会连两件自然的事实也联系不起来,或者连二者之间所存在的联系都无法了解。在这里,唯一的问题是思维得正确或不正确,而轻视理论显然是自然主义地、因而是不正确地思维的最确实的道路。’我们常说的‘科学发展观’,其实强调的就是指导工作的‘理论’要科学,不能简单地拍拍脑袋,这是党风问题。”(《北京日报》2009年12月28日17版)

我国语言文字学界“近百年来一直跟着印欧语的眼光转”,从理论到方法,无不带有明显的西学印记。长期以来,有的人只埋头微观分析或历史回顾,忽视理论思考和创新,由此形成的也就是恩格斯所说的“搜集材料的科学”;有的人虽然注重理论思考,但是,总也跳不出由西方语言文字理论形成的固有框架。上述这些,早已成为学界的共识,在下也就无须再多费笔墨了。这里想多说几句的问题是:很多人不能自觉地运用马克思辩证唯物主义作为语言文字研究的指导思想。党中央提出文化的多元化,意识形态的一元化,即马克思主义一元化领导。上世纪50年代,有人引用马、恩、列、斯的语录,用于说明语言问题,但多属于生搬硬套,并没能采用其立场、观点和方法,领会其精髓。“文革”之后,又有人鄙视马克思主义,认为其思想已经过时,于是,只从西方语言文字理论中汲取营养,以形成自己的所谓“新”理论,并由此确立自己的学术地位。这样的语言文字研究只能是套搬,其结果就是亦步亦趋,跟在西方语言文字理论后面的所谓“接轨”。马克思主义对于中国社会发展之重要性,以前的不说,仅就改革开放以来即可看出,邓小平创建的中国特色社会主义理论,就是马克思主义与步步深入的中国社会变革相结合,汇集了中国共产党人集体的智慧而形成的。马克思主义之于中国语言文字学界的研究,作为指导思想亦非常重要。忽视甚至鄙视马克思主义,作为学界的思潮,是学界长期以来无重大理论突破与创获的症结所在。

以索绪尔及其流派为核心的西方语言文字理论,其理论基础是索绪尔所吸取的以华尔拉斯为代表的瑞士正统经济学派的理论。该经济学派的理论存在严重先天缺陷,索绪尔将其理论和方法引入语言研究之后,形成了由其奠基而后近百年来不断发展的结构主义语言学,因而结构主义语言学也就不可避免地必然存在严重先天缺陷,诸如注重形式、注重静态分析的主观唯心主义的研究方法,以及表现出僵化和片面性的形而上学的研究方法。(详见拙文《语言学与政治经济学》,《汉字文化》2009年第5期)该理论引入中国之后,虽然形成了中国现代语言文字之学,但不可否认的是,又成为长期以来一直笼罩着我国语言文字学界的挥之不去的阴影。其典型的事例就是:关于“语言的基本结构单位”问题的理论探讨。2009年,上海召开“汉语独特性理论与教学国际研讨会”,(笔者按:在下认为“独特性”研究的提法是否具有一定的片面性,因为共性总是寓于个性之中,离开了共性,也就无所谓个性。) 出席会议的学者,有“字本位”的代表、有“词本位”的代表、有“词素本位”的代表。所谓“本位”,就笔者理解,当为“基本结构单位”。这些代表似乎都在寻求语言文字的“基本结构单位”。与会的三方就“语言的基本结构单位”问题,进行了激烈的辩论。有人认为“语言的基本结构单位”是字,有人认为“语言的基本结构单位”是词,还有人认为“语言的基本结构单位”是语素。三方各持己见,谁也无法说服对方。在下愚见,如果认为“语言的基本结构单位”是字,那么将口说语言的基本结构单位说成是“字”,让人难以接受,又如联绵词“踌躇”等,多由两个汉字构成,其中的一个汉字“踌”或“躇”显然不具备自足义(笔者按:“自足义”这一术语为鲁川先生首创),便难于说通“语言的基本结构单位”是字。如果认为“语言的基本结构单位”是词,那么双音节词,如“国家”,其中“国”与“家”两个语素分别有音又有义(笔者按:这里的“义”既包括“自指义”又包括“他指义”。这两个术语亦为鲁川先生首创,其含义见下文),也存在问题。如果认为“语言的基本结构单位”是语素,那么像“沙发”这样的词,分别由“沙”和“发”两个汉字组成,但是,其整体意义又分别与这两个汉字不尽相同,也存在问题。这些各自理论上存在的缺陷,构成了会议上辩论各方的激烈争论。

正如陈力丹教授所说“在这里,唯一的问题是思维得正确或不正确”。上述三方苦苦争辩,可能就是在寻求语言文字的基本结构单位,也就是徐德江先生所说的语言文字的细胞。凑巧的是这也正暗合了马克思主义的研究方法。马克思就是分析了资本主义社会的细胞——商品,并由此暴露资本主义社会的一切矛盾及一切矛盾的胚芽。可见,细胞分析法是科学研究的必由之路,问题仅仅在于是否自觉运用这一方法,以及运用得正确与否。上述三方虽然客观上似乎在寻找“细胞”,但是主观上他们却未必意识到了这一点,而且,遗憾的是他们也未能找到语言文字的真正的“细胞”。能够自觉运用马克思主义的细胞分析方法,并独创地找到了语言文字的真正的“细胞”,目前就我们所知,徐德江先生是第一人。

徐德江先生(2005)指出:“至今,语言学界对口说语言和文字各自的‘天然单位’——细胞形态,尚未做出科学性的分析。特别是对真正的客观存在的,最简单的一个细胞形态,未做出科学的分析。这也是影响文字学语言学健康发展的重要原因之一。”对上述问题,徐先生出版的大作《普通语言文字学简论》(同心出版社,2009年)作了精妙的解答。徐先生自觉运用马克思辩证唯物主义的“细胞”分析方法,从政治经济学的商品分析中受到启发,在苦苦求索了近40年之后,终于找到了口说语言的细胞(基本结构单位),并首称之为“语基”,以及文字的细胞(基本结构单位),并首称之为“文基”。

首先,关于口说语言的细胞(基本结构单位),徐德江先生认为:口说语言的细胞(基本结构单位)是在说话的过程中,人的发音器官发出的单个声音,即听觉能感知的一个单独的声音,称为“语基”。一切口说语言的细胞,都是“语基”,这是人类口说语言的共同特点。

口说语言的细胞——“语基”有两种:一种是只有“自指义”而无“他指义”的“语基”;另一种是既有“自指义”同时又有“他指义”的“语基”。研究“语基”时,必须彻底排除文字的干扰。比如,俄文“русский”,“ру”是由一个辅音和一个元音两个字母共同表示的一个“语基”,“сс”是由两个相同的辅音字母只发一个音来表示的一个“语基”,“кий”是由一个辅音、一个元音和一个半元音三个字母共同表示的一个“语基”,而一个辅音字母“щ”却是两个“语基”。人们在研究西方口说语言时,往往总是从字母出发考虑问题,这就歪曲了口说语言的情况,不能真实地看清口说语言的特点。(笔者按:按徐先生的观点,字母和词之间应当有“语基”。)

口说语言的“语基”内容还可分为 “无字形”和“有字形”两种:“无字形语基”的口说语言,是“无字口语”,“有字形语基”的口说语言,是“有字口语”。

有字口语的细胞——“单语基词”的结构中,第一层次是“语音标独功能”(即音+义+形,也叫“语材”)和“语音结合功能(语法)”。与无字口语的“语音标独功能(语材)”不同的是,有字口语的“语音标独功能(语材)”的因素不只有“语音”和“语义”,还有“字形”。“字形”同“语义”一样,都是内容,而“语音”是物质外壳。“字形”不同于“语义”,是一身二任:既是“语音”的“所指”,又是“语义”的“能指”。与无字口语“语音结合功能(语法)”不同的是,有字口语“语音结合功能(语法)”的因素,不只是有“本语音+他语音”和“语法意义”,同时还有“本字形+他字形”。“本字形+他字形”与语法意义都是内容,而“本语音+他语音”是物质外壳。“本字形+他字形”不同于“语法意义”,也是一身二任:既是“本语音+他语音”的“所指”,又是“语法意义”的“能指”。用图表示:

口说语言的各种单位:词、词组、句子,是由“语基”构成的。“语基”可构成“单语基词”,也可组成“多语基词”,由“单语基词”“多语基词”分别或共同组成“词组”,由“单语基词”“多语基词”“词组”分别或共同组成“句子”……。

第二,关于文字的细胞(基本结构单位),徐德江先生认为:文字的细胞(基本结构单位)为“文基”。汉字的每一个字,就是一个“文基”——汉字的细胞。拼音文字的“词”与“字”是一致的,每个单词,就是一个“文基”——拼音文字的细胞。

文字的细胞——“文基”(“字”)也有两种,一种是只有“自指义”的“文基”(“字”),另一种是既有“自指义”同时又有“他指义”的“文基”(“字”)。

文字的细胞——“文基”(“字”)内容还可分为“无音”和“有音”的两种:“无音”的“文基”(“字”),是“非字音文字”,“有音”的“文基”(“字”),是“字音文字”。人类文字发展的第一阶段是“非字音文字”,第二阶段是“字音文字”。

“字音文字”的细胞——“文基”(“字”),有“单语基”字音的,又有“多语基”字音的。汉字的“字”都是“单语基”字音;拼音文字的“字”(即词)一般是“多语基”字音的。

字音文字的细胞——“文基”(“字”)的结构中,第一层次是“字形标独功能(语材)”和“字形结合功能(语法)”。与非字音文字的“字形标独功能(语材)”不同的是,字音文字的“字形标独功能(语材)”的因素不只有“字形”与“字义”,还有“字音”。“字音”同“字义”一样都是内容,而“字形”是物质外壳。“字音”不同于“字义”是一身二任:“字音”既是“字形”的“所指”,同时又是“字义”的“能指”。与“非字音文字”的“字形结合功能(语法)”不同的是,字音文字“字形结合功能(语法)”的因素不只有“本字形+他字形”和“语法意义”,还有“本字音+他字音”。“本字音+他字音”同“语法意义”都是字音文字“字形结合功能(语法)”的内容,而“本字形+他字形”是物质外壳。“本字音+他字音”不同于“语法意义”也是一身二任:“本字音+他字音”既是“本字形+他字形”的“所指”,又是“语法意义”的“能指”。用图表示:

第三,对于口说语言的细胞(基本结构单位)——“语基”的意义,徐德江先生作了详细分析。

作为口说语言的细胞(基本结构单位)——“语基”,分两类:一类是只有“自指义”而无“他指义”的“语基”;一类是既有“自指义”同时又有“他指义”的“语基”。

“语基”只表示语音或字形自身,而不表示其他事物,这种“意义”就是“自指义”。“语基”表示的不是语音或字形自身,而是语音或字形自身之外的其他事物,这种“意义”就是“他指义”。

根据徐德江的理论,鲁川先生在“字音文字”的研究中,对字义有了全面的认识:

第四,运用“细胞”理论,徐德江分析了汉语与印欧语及其文字在“明确简约”程度上的差别。

汉语的“语基”与音节是重合的,一个“语基”就是一个音节。所以汉语的“单语基词”也就是“单音节词”。汉语的“语基”,一般都是“自指义”与“他指义”同时存在。印欧语的“语基”,主要是“自指义”为多数,同时兼具“自指义”和“他指义”的“语基”,数量较少。汉语口说语言所以明确简约,是因为汉语的细胞一个“语基”就是一个音节,而每个“语基”都是既有“自指义”又有“他指义”。

印欧语口说语言的细胞,一个“语基”就是一个音节的较少,多数的音节都是由两个或两个以上的“语基”构成;而且,一个“语基”同时兼具“自指义”和“他指义”的也较少,往往是由两个或更多的“自指义语基”组合起来才具有“他指义”。一切口说语言的“词”“词素”并非都是“单语基”的。结构主义没有发现口说语言的细胞——“语基”这个层次,只注意到“词”“词素”,所以,虽然对语言理论的发展做出了贡献,但发展到一定程度,局限使其走向了反面。

汉语的口说语言的细胞“语基”与文字的细胞“文基”——“字”是一致的。一个口说语言的细胞“语基”就是一个文字的细胞“文基”——“字”。每一个方块字,不管笔画多少、部件多少,都成为一个个相等的方块形,易于分辨。所以,汉字也是“明确简约”的优点突出。拼音文字的细胞“文基”——“词”(即字)与印欧语口说语言的细胞“语基”是不一致的。一个口说语言的细胞“语基”与一个文字细胞“文基”——“词”(即字)完全对应的较少,大多数都是一个文字的细胞“文基”——“词”(即字),与两个或两个以上的口说语言细胞“语基”相对应。而且,每个“文基”“词”(即字)的字母都是线性排开,字形长短不一,相差很大。所以,“明确简约”的程度,就比不上汉字了。

索绪尔从历代语言学家只就文字研究语言的倾向里走出来,重视了口说语言的研究,做出伟大的贡献。但他认为在口说语链中,难以区分出具体的单位,只好借助文字的单位——“词”(法语称“mot”,英语称“word”)来作为口说语言的单位,这样就将口说语言真正的基本结构单位——“语基”,即口说语言真正的细胞掩盖起来,将口说语言的基本结构单位与文字的基本结构单位视为一体,在细胞上就没有分清口说语言和文字的界限。这就是结构主义虽然称语言和文字是两个不同的符号体系,但却认为语言和文字是“一个王国”的根本原因。

第五,运用“细胞”理论,徐德江分析了“语基”与“语素”的不同。

“语基”也不同于“语素”。《现代汉语词典》称:“语素”即“词素”。“词素”:“语言中最小的有意义的单位,词根、前缀、后缀、词尾都是词素。有的词只包含一个词素,如‘人、蜈蚣’等。……”可见,“语素”(词素)既没区分开口说语言和文字的差别,又不是语言和文字的“最小的”单位。汉语文的“蜈蚣”是一个“语素”(词素),但就口说语言来说,是两个“语基”;就文字而言,是两个“文基”。而印欧语的一个词根、一个前缀、一个后缀、一个词尾,就口说语言来讲,很多是不止一个“语基”;就文字而言,它们并不是一个“文基”(单字),只是一个“文基”(单字)的部件。

用唯物主义的观点来分析,口说语言和文字的细胞都是以物质外壳为基础的。口说语言的物质外壳是语音,文字的物质外壳是字形。口说语言的细胞是在说话的过程中,人的发音器官发出的单个声音,即听觉能感知的一个单独的声音,我们称之为“语基”。文字的细胞就是“文基”(“字”)。人的发音器官发出的单个声音是有限的,所以口说语言的细胞——“语基”的数量是有限量的。文字的细胞——“文基”(“字”)是无限量的。一切口说语言和文字都如此。

第六,运用“细胞”理论,徐德江分析了口说语言的细胞——“语基”(“单语基词”)和文字的细胞——“文基”(“单字词”)其原料与其结构的异同。

口说语言的细胞——“语基”(“单语基词”)和文字的细胞——“文基”(“单字词”),其原料有同有不同。有字口语和字音文字的原料都是无字口语的细胞——“语基”和书写符号。用公式表示:

有字口语细胞——“语基”的原料无字口语的细胞——“语基”

书写符号

字音文字细胞——“文基”(“字”)的原料无字口语的细胞——“语基”

书写符号

而无字口语的细胞——“语基”的原料是“人发音器官发出的声音”和“人对某事物的认识”。用公式表式:

无字口语细胞——“语基”的原料人的发音器官发出的声音

人对某事物的认识

非字音文字的细胞——“文基”(“字”)的原料是“书写符号”和“人对某事物的认识”。用公式表示:

非字音文字细胞——“文基”(“字”)的原料书写符号

人对某事物的认识

口说语言的细胞——“语基”(“单语基词”)和文字的细胞——“文基”(“单字词”),其结构也都是不同的。需特别强调指明的是,无论是无字口语、有字口语,也无论是非字音文字、字音文字,其细胞结构的第一层次,都是“标独功能”(人对事物独立性认识)与“结合功能”(人对事物部分联系性认识)这两个要素。而不是“音义的结合”。“音”和“义”的结合只是无字口语细胞——“语基”(“单语基词”)的结构第一个层次即一个要素“标独功能”的组成因素。“音”和“义”的结合既不能代表无字口语细胞——“语基”(“单语基词”)的整体,更不能代表有字口语、非字音文字和字音文字的细胞“语基”(“单语基词”)和“文基”(“单字词”)的整体。用图表示:

可见,将词的结构说成是“音义的结合”是何等的片面。

上面,我把徐德江先生的观点做了摘要梳理。徐先生在研究中发现,当今的语言文字理论中的许多基本原理和基本概念都有片面性,甚至是错误的。用百年来在索绪尔语言理论基础上形成的结构主义语言学理论解释、解决当前在理论上和教学中的问题,已经山穷水尽,在这种情况下,迫不得已,徐德江先生只好创建了一些新的术语,用这些新的术语和新的理论来说明、解决实际当中遇到的问题,于是就“柳暗花明又一村”了,感到十分的顺畅。徐德江先生在《资本论》“英文版的序”里读到恩格斯这样一段话:“一种科学每一次新的解释的提出,都包含这门科学术语上的一次革命。”于是,他就放心地、大胆地、实事求是地对语言学中的一些概念、术语进行改造:正确的接受下来;片面的,重新解释;没有的,自己创造。这样,关于什么是元音、辅音、音节、字、词、同音词、构词法、语法……都提出了新的解释。因此他的观点看上去,就和汉语汉字研究中现存的、完全遵从西方理论体系的普通语言学理论格格不入,这应该是很自然的。对上述徐德江先生的观点,鲁川先生撰写了《与时俱进地探索语言文字的“细胞”——徐德江语言文字理论评析之三》(《汉字文化》2009年第4期)作了精彩阐释。

根据上述徐德江语言文字细胞分析理论,将语言和文字看作两个王国。口说语言的基本结构单位是“语基”,文字的基本结构单位是“文基”。口说语言的各种单位:词素、词、词组、句子,都是由“语基”构成的。也就是说:词素、词、词组、句子虽然是口说语言的各种单位,但不是基本结构单位。口说语言的细胞——“语基”有两种:一种是只有“自指义”而无“他指义”的“语基”;另一种是既有“自指义”同时又有“他指义”的“语基”。文字的细胞——“文基”(“字”)也有两种,一种是只有“自指义”的“文基”(“字”),另一种是既有“自指义”同时又有“他指义”的“文基”(“字”)。在下窃以为语言、文字的细胞分别用“语基”和“文基”来取代“字本位”“词本位”“语素本位”等理论是科学的。在语言和文字两个王国中,像“乌鲁木齐”中的“乌”,是个只用其“自指义”的“语基”或“文基”(“字”);而“乌鸦”中的“乌” 是既有“自指义”同时又有“他指义” 的“语基”或“文基”(“字”)。

徐德江先生运用马克思主义唯物辩证法,在语言文字研究中作了联想,从而有了重大创获。正如上文所引恩格斯所说的话:“无论对一切理论思维多么轻视,可是没有理论思维,就会连两件自然的事实也联系不起来,或者连二者之间所存在的联系都无法了解。”

徐德江先生则在正确理论的指导下,从马克思的《资本论》中的政治经济学理论受到启发:产品的二因素“有用劳动”和“自然物质”,一旦进入交换,就产生了质变,成为商品,其二因素就变为“使用价值”和“交换价值”了,然而“使用价值”可单独表现出来,“交换价值”却不能单独表现出来,必须在交换中才能表现出来。由此,他联想到了语言的各个单位也有二因素,即他所称谓的“标独功能(语材)”和“结合功能(语法)”。“标独功能(语材)” 可单独表现出来,而“结合功能(语法)”却不能单独表现出来,而必须在与其他语言单位的结合中才能体现出来。对上述徐德江先生的观点,鲁川先生撰写了《语言文字单位都是标独功能和结合功能的对立统一体——徐德江语言文字理论评析之五》(《汉字文化》2009年第6期)亦作了精彩阐释。

徐德江的语言文字理论研究实践,正如恩格斯所说,是运用了唯物辩证法之后,使搜集材料的科学变成了整理材料的科学。鲁川先生说:人皆曰,1898年马建忠所作《马氏文通》建立了中国现代语言学。而1998年鲁川则说,1898年马建忠所作《马氏文通》建立了具有西方特色的中国现代语言学。鲁川先生还说:索绪尔是现代语言学的奠基人,徐德江是当代语言文字学的奠基人。鲁川先生称接受徐德江语言文字理论是自己脱胎换骨的过程,而其于我则有豁然开朗的感觉,好像把蒙住自己多年的坚韧鼓皮一下子给撕开了。

总之,徐德江先生的语言文字理论具有前所未有的现实性和前瞻性,是针对在语言实际中已经走投无路的结构主义理论作了反思之后,作出的重大理论创新。其主要贡献在于:运用马克思唯物辩证细胞分析方法研究语言文字,找到了语言文字的基本结构单位——“细胞”,其分别是“语基”和“文基”,并由此出发,科学地分析解释了诸多众说纷纭的语言文字现象。徐德江先生研究语言文字理论的方法,与党中央所倡导的精神与方法是完全一致的,这种一致绝对不是出于偶然,这是他近40年来一贯坚决信奉马克思主义,刻苦学习钻研马克思主义,并在掌握其理论精髓之后,自觉将其用于指导研究实践的结果。这一点,作为徐德江语言文字理论的重要特色,是对语言文字学界的研究实践具有重要的指导与借鉴作用的,理应受到学界高度的尊敬与重视。将其著作结合鲁川先生的丰富演绎和深邃探讨共同阅读,可以更进一步深入了解徐德江语言文字理论,学习掌握其所运用的马克思唯物辩证细胞分析方法,进而对当前理论界的纷争,释疑解惑,并且期望引起读者思索的兴趣,或然进而有志共同探究语言文字理论的真谛。若沿此路径,不断前进,由东方人创建的人类第二阶段语言文字理论,庶几可望早日完善成就矣!为此,我们是否应该以开放的胸襟,求实的心态,虚心学习、宽容面对语言文字学界的各种前沿探索及不断形成的新理论。徐德江先生和鲁川先生已经率先作出了成绩,在此,我以无比喜悦的心情向他们表示敬意和祝贺,故发表上述感言,是为序。

(通讯地址:100089首都师范大学文学院)

作者:宋均芬

拼音汉字的优点分析论文 篇2:

汉字与汉文化

摘要:汉民族文化对汉字取形方式的影响,分析汉字蕴藏的文化信息,汉字的构形理论的建立,使得汉字的结构化繁为简,使得原本看起来一个一个汉字有了一根贯彻其中的线索,找到汉字造字的规律。运用问卷调查法、文献资料法等研究方法,对汉语的优点和缺点,进行调查。任何事物都有它的优点和不足之处,汉字的通行面特别广,历史特别长,我们民族的宝贵遗产靠它保存下来的也特别多,现代汉语中使用的汉字以被世人认为是人类目前最伟大的文字。

关键词:汉字;汉文化;分析

汉字作为世界上唯一使用至今的以表意为主体的文字,“构形的最大特点是它要根据汉语中与之相应的某一个词的意义构形,因此,汉字的形体总是携带着可供分析的意义信息。”虽然说世界上各民族文字无不凝结着一定的文化信息,但汉字在它自身的结构中包含着丰富的文化因素,反映了汉民族的文化特征,这一点在象形意味浓厚的古代文字中表现得更加明显,是其他表音体系文字无法比拟的。因此,汉字与文化的关系越来越为人们所乐道,再加上历史底蕴的深厚,我们在认识汉字、更深层次理解汉字方面取得了丰硕的成果。但是这种研究更多的还是站在字源学的角度去“说文解字”,忽略了汉字形体的发展变化,以及这种变化所带来的汉字性质的变化。虽然最近几年人们越来越意识到了汉字文化的重要性,并开始把汉字的文化信息运用到社会实践当中去,但这种应用还是处于一种萌芽状态,没有更深层次的探讨,也没有找到更好的切入口和联系点,使得汉字的使用情况不容乐观。

1.研究对象及方法

1.1研究对象

针对汉字表意为主体的文字开始自己的研究,各民族文字无不凝结着一定的文化信息,但汉字在它自身的结构中包含着丰富的文化因素,反映了汉民族的文化特征,这一点在象形意味浓厚的古代文字中表现得更加明显,是其他表音体系文字无法比拟的。

1.2文献资料法

根据研究对象和内容,认真查阅了有关文献资料,在对其进行学习和分析的基础上,形成了本研究的基本理论依据。

1.3數理统计法

将搜集所得数据进行分析处理,并建立了相应的数据库,便于今后进一步调查研究。

2.调查结果与分析

汉字与文化的关系。在汉字没有产生之前,先人通过口语进行交流,凭借记忆一代一代往下传,但记忆容易遗忘或走样,同时还受到时间和空间的局限,不能长远流传。因而,我们的祖先在生存、发展的过程中,经过很长时间的努力,逐渐创造了汉字。自古以来汉民族长期积累的哲学、文化、科技和历史才得以记载和流传至今;我们祖先的思想、文化艺术和科学技术才得以广泛传播和日益提高。所以汉字是既反映文化又与文化相互依存的文字体系。各民族文字无不凝结着一定的文化信息,但汉字在它自身的结构中包含着丰富的文化因素,反映了汉民族的文化特征,这一点在象形意味浓厚的古代文字中表现得更加明显。

3.汉字的文化特征

3.1汉字与文化的关系

世人类在社会实践中所创造的物质财富和精神财富的总和;狭义的文化指社会的意识形态以及与之相适应的制度和组织机构。《现代汉语词典》“文化”义项第三:“指运用文字的能力及一般知识:学习文化水平。”这个意义上的“文化”就是文字问题,从有文字开始,不会“运用文字”就是“文盲”,就是没有文化。罗常培先生说过:“语言文字是一个民族文化的结晶。在文字产生之前,人类的各项活动和一切社会交流,都是依靠语言传授,有了文字以后,人类的观念活动、言语活动可以借助文字这样的物质形式表现出来,成为肉眼看得见的生动形象,巩固了人类一代又一代创造出来的思维成果。可以说各种民族文字都是该民族文化的一个重要组成部分,汉字也不例外,它是汉民族文化的一个有机组成部分。

3.2语言基础发音多

汉字和汉语基本相适应。一个汉字代表一个音节,一个语素也基本上是一个音节。因此,汉字和语素是相对应的,用汉字记录语素非常合适。汉字是文字单位,语素是语言单位,两者之间的复杂关系表现在:一个汉字可以表示几个不同语素。如“米”。一个语素也可能由几个汉字构成。如缠绵等连绵词和“沙发”、“日本”等一些外来词。但大部分汉字都是一个汉字表示一个语素的。由于采用了增多基础文字的方法,就必然导致基础音多的问题。而我们只有一条舌头一个口腔,所以只能在同一发音上进一步利用音调进行区分,虽然这样做简化了口型的变化,很省体力,但相应造成在语言发音有微小变化时就会产生很大错误,所以要求发音准确性高,这当然增加了学习难度,对没有太大音调要求的拼音文字母语者来说,无疑难以适应。汉语音节结构非常简单,声韵母配合只有400多种,声韵调配合只有1200多种,加之词行简短,以双音节词为主,单音节词依然很活跃,这样同音语素和同音词非常多,很容易混同,而形态各异的汉字就起到了分化同音词的作用。

4.对策与建议

(1)研究汉字与汉文化关系的意义。有利于正确认识汉字的地位和作用,首先汉字不是落后的。有人认为汉字是落后的。汉字是汉文化的一部分,其形成与发展都要受到汉文化的制约和影响,甚至可以说什么样的文化决定什么样的文字。如果弃之不用,人们就不能通过研究汉字来考察远古已逝的文化。其次,汉字不是万能的。汉字负载着大量的文化信息,但并不是所有的汉字都与汉文化有关,二者并不是一对一的对应关系。汉字是反映一定的历史文化,人文信息,但绝不是每个字“都是一页恢宏的历史”。随着汉字文化学学科的建立和发展,已经成为一个热门话题。汉字作为世界上唯一使用至今的以表意为主体的文字,“构形的最大特点是它要根据汉语中与之相应的某一个词的意义构形,因此,汉字的形体总是携带着可供分析的意义信息。”虽然说世界上各民族文字无不凝结着一定的文化信息,但汉字在它自身的结构中包含着丰富的文化因素,反映了汉民族的文化特征,这一点在象形意味浓厚的古代文字中表现得更加明显,是其他表音体系文字无法比拟的。

(2)对于汉字我们能够客观冷静全面的看待它的优缺点。另一方面,在两千多年的汉字研究的基础上,开始更深更广地揭示汉字本身所蕴涵的丰富的文化信息,并逐渐地把这种研究和汉字的教学结合在一起,使得古文字的研究走出了象牙塔,由故纸堆走向了应用的前沿阵地,这无疑是一个很大的进步。汉字形体的发展变化,以及这种变化所带来的汉字性质的变化。虽然最近几年人们越来越意识到了汉字文化的重要性,并开始把汉字的文化信息运用到社会实践当中去,但这种应用还是处于一种萌芽状态,没有更深层次的探讨,也没有找到更好的切人口和联系点,使得汉字的使用情况不容乐观。从汉字与汉文化的关系人手,深人研究汉民族文化对汉字的取形和构形方式的影响。汉字与文化的关系,从汉字人手研究中国文化,从文化学的角度研究汉字。王贵元在《汉字与文化》一书中认为汉字与文化的关系体现在两个方面:一是汉字的字义系统记录了文化系统,二是汉字的字形構造反映了文化现象。这就表明汉字文化一方面要把汉字看成一种文化事象,然后把它的整体放在人类的文化大背景下来观察它与其他文化事象的关系,即宏观汉字文化学;另一方面要研究汉字个体字符构形和总体构形系统所携带的文化信息,对这些文化信息进行分析,加以揭示,这是微观汉字文化学。我们这里所讲的汉字与文化的关系主要是第二个方面的,也就是微观汉字学的范畴。一个词义,用怎样的字形来表示,它要从历史文化和客观环境出发,对汉字个体字符构形的状态及其原因加以解释,同时对汉字构形总体系统及其演变的历史之所以如此作出回答。也就是说汉字的构形记录了造字时代的社会文化生活状态、当时人们的思想认识及心理状态等。

5.结语

汉字的最大优点,无疑在于它的超方言性。中国幅员辽阔,民族众多,南北东西地理环境差异极大,因此存在在多种方言。如北方话、闽方言、客家方言、吴方言等等,各种方言之间差别极大,不同方言之间交流非常困难。如果采用表音文字,发音的不同导致文字的不同,各方言区之间的交流变得不可能。而作为表意文字的汉字的存在,则使各方言区虽然语言不同,但可通过汉字进行交流而毫无障碍。汉字的超方言性,使它成为中华文化的凝结剂和中华民族向心力的重要源泉。目前,在我国中小学汉语言教学上,对汉字的教学方法是比较陈旧的,分析汉字蕴藏的文化信息,改进汉字教学,旨在拓展教学思路,找到一种新的教学方法,或者说是强化一种教学方式,给提高教学效率多一点选择。这种方法把感性材料的积累与理性知识的增长结合起来,把掌握方法与提高效率结合,尽可能使汉字教学在有限的教学时间内,得到一定改进。

作者:刘影

拼音汉字的优点分析论文 篇3:

中文信息处理研究现状分析

提 要 60多年来中文信息处理研究取得了令人瞩目的成就。但是,这一领域也面临问题和挑战。本文在对中文信息处理研究成就简要归纳的基础上,分析这一领域的技术现状,直面存在的问题,并对未来发展的方向提出一些看法。希望本文指出的问题能够引起中国国内同行的关注,为未来的中文信息处理研究提供有益的参考。

关键词 中文信息处理;自然语言处理;自然语言理解;计算语言学

Key words Chinese language processing; natural language processing; natural language understanding; computational linguistics

一、引 言

自1956年人工智能(artificial intelligence,简称AI)概念被提出以来,自然语言理解(natural language understanding,简称NLU)就一直是这一领域研究的核心问题之一。尽管20世纪60年代提出的计算语言学(computational linguistics,简称CL)和80年代衍生的自然语言处理(natural language processing,简称NLP)概念分别从数学建模和语言工程角度各自诠释了不同的外延,但NLU、CL和NLP这三个术语的实质内容和共同面对的科学问题并无本质的差异,尤其从实际应用的角度看,几乎一样。因此,在不引起混淆的情况下人们常以“人类语言技术”(human language technology,简称HLT)泛指这一语言学、计算机科学和人工智能等多学科交叉的研究领域(宗成庆 2013)。

中文信息处理(Chinese language processing,简称CLP)是指针对中国的语言文字开展相关研究的一个专属领域,是自然语言处理的一个具体分支。广义上讲,“中文”是中国各民族使用的语言文字的总称,在不引起误解的情况下,“中文”与“汉语”指的是同一概念。随着中国综合国力的增强,以互联网为纽带的经济和信息全球化趋势,尤其是中国“一带一路”战略的实施,向包括中文信息处理在内的人类语言技术提出了前所未有的挑战,巨大的技术市场吸引着全球科学家和企业家的目光(宗成庆等 2009)。

与其他语言的处理技术相比,中文信息处理处于怎样的技术水平?近年来,中文信息处理从资源库建设、理论建树,到技术研发和人才队伍培养,有哪些根本性的变化?在相关学科快速发展的新形势下,中文信息处理研究又将何去何从?本文将在简要归纳中文①信息处理研究所取得成就的基础上,分析当前的技术状况,直面存在的问题,并对未来发展的方向提出看法。希望本文指出的问题能够引起中国国内同行的关注,为未来的中文信息处理研究提供有益的参考。

二、中文信息处理研究的进展与现状

从1949年新中国成立前后的语言文字改革算起,到20世纪70年代中期开始的汉字编码和输入法研究,再到今天网络时代的全方位、大规模中文信息处理技术研究、开发和应用,中文信息处理走过了60多年的曲折历程。在半个多世纪的发展过程中几代人付出了艰苦的努力,一系列国家标准、规范和理论模型及应用系统应运而生。概括起来,这些成果可以归纳为如下几个方面(宗成庆、高庆狮 2008;宗成庆等 2009):

(1)汉字简化与规范化工作基本完成,汉语拼音方案被国际标准化组织(ISO)接纳,汉语拼音正词法规则已成为国家标准。

(2)汉字编码、输入/输出、编辑、排版等相关技术已经解决,亚伟中文速录机和汉字激光照排、印刷系统已被大规模产业化应用。

(3)面向信息处理的汉语分词规范已经制定,以“综合型语言知识库”和知网(HowNet)②为典型代表的一批汉语资源库(包括语料库、词汇知识库、语法信息词典等)相继建成。

(4)汉语词语自动切分、命名实体识别、句法分析、词义消歧、语义角色标注和篇章分析等自然语言处理的基础问题得到全面研究和推进,一系列不断改进的模型和方法被相继提出,一大批高质量的研究论文发表在国际一流的学术会议和权威期刊上。

(5)机器翻译、信息检索、舆情监测、语音识别和语音合成等应用技术在众多互联网企业、国家特定领域和机构中得到实际应用,对推动国民经济发展、提高信息化服务水平和维护国家安全发挥了重要作用。

另外值得提及的是,由国家语言文字工作委员会发布的“中国语言生活绿皮书”③正在为国家语言文字工作方针政策提供参考,为语言文字研究者、语言文字产品研发者和社会其他人士提供语言服务,引领社会语言生活走向和谐(李宇明 2007)。

随着计算机和互联网技术的快速发展和普及,中文信息处理遇到了前所未有的大好时机。根据联合国对世界主要语种、分布与应用力调查的结果,世界十大语言依次是:英语、汉语、德语、法语、俄语、西班牙语、日语、阿拉伯语、韩语(朝鲜语)、葡萄牙语。而中国互联网络信息中心(CNNIC)发布的《第21次中国互联网络发展状况统计报告》表明,中国互联网上有87.8%的内容是文本。2014年7月21日CNNIC发布的《第34次中国互联网络发展状况统计报告》显示,截止到2014年6月,中国网民规模达6.32亿。这些数据清楚地告诉我们这样一个不争的事实:无论从政治、经济、文化、军事和安全等政府关注的角度看,还是从商贸、旅游和信息服务等商业市场因素考虑,中文信息处理已经成为国际互联网和移动通信平台上获取和传递信息难以绕开的技术结点。不仅IBM、微软、谷歌等世界巨头公司投入了大量的人力和财力瞄准中国市场开展相关技术研究,斯坦福大学、宾夕法尼亚大学、加州大学伯克利分校等国际一流大学也为中文信息处理研究做出了卓著贡献,他们开发的汉语分词系统、句法分析器和命名实体识别工具等,以及LDC汉语语料库④(包括分词、句法树和篇章语料库等)得到广泛应用。这意味着,中文信息处理不仅是中国学者关注的问题,而且已经成为国际学术界和企业界共同研究的课题。

近年来中国的自然语言处理研究水平迅速提升,大陆学者在HLT相关领域的国际一流学术会议和期刊上发表的论文数量不断增长。图1是2015年第53届国际计算语言学学会年会与第7届自然语言处理国际联合会议(ACL-IJCNLP)⑤投稿和被接受的论文数量按国家或地区分布的直方图:

ACL-IJCNLP’2015分为主会和专题研讨会两种。其中,主会是ACL大会的主体,它以论文质量高、录用率低、影响力大而著称。每年该会录用论文的数量通常被看作是一个国家或地区在本领域整体水平和实力的象征。ACL-IJCNLP’2015主会共收到长文投稿692篇,录用173篇;收到短文投稿648篇,录用145篇。也就是说,长文和短文合计投稿量为1340篇,录用318篇,录用率约为23.7%。从图1可以看出,在1340篇投稿中第一作者来自中国大陆的论文数量占到了22.7%,仅次于美国(24.5%)。值得注意的是,即使是来自美国的投稿,第一作者也有可能是中国学者,包括众多留美的中国学生。据统计,在被录用的318篇论文中第一作者为中国人的论文数量约占37.1%。换句话说,超过三分之一被录用的论文出自中国人之手。

除了ACL会议以外,国际计算语言学大会(International Conference on Computational Linguistics, 简称COLING)⑥、国际人工智能联合会议(International Joint Conference on Artificial Intelligence, 简称IJCAI)、ACM 信息检索大会(Special Interest Group on Information Retrieval,简称SIGIR)和ACM信息与知识管理国际会议(International Conference on

Information and Knowledge Management,简称CIKM)等其他相关的一流学术会议都已登陆中国。

与此同时,中国的自然语言处理人才队伍迅速成长,一批优秀的学者在国际一流学术会议和权威学术机构中担任重要职务。2013年王海峰博士出任ACL主席,同年宗成庆当选国际计算语言学委员会⑦委员,2014年和2015年吴华博士和宗成庆分别担任第52届和53届ACL大会程序委员会共同主席,2016年赵世奇博士出任ACL秘书长。还有一大批优秀的中国学者在各类一流国际学术会议上担任组委会主席、领域主席、讲座主席和出版主席等。

毋庸置疑,中国学者已经成为国际HLT领域一支举足轻重的生力军。除了自身的努力以外,很重要的一个原因是国家综合实力的增强。国家不断增加的科研经费投入使更多的学者有机会走出国门,并把更多优秀的国外学者(包括学有所成的海外华人)请到中国来。当然,互联网技术起了非常重要的作用。借助于互联网,任何人都可以随时随地地查阅学术资料,实时了解和跟踪最新的国际研究动态,从而把握正确的研究方向。另外,以IBM、微软公司、谷歌等为代表的国际大公司在中国大陆开设的研究机构,也对相关领域的技术发展和人才培养起到了推波助澜的作用。他们与中国科研机构和高校的密切交流与合作,使更多的青年学生有机会在高水平的技术平台上利用公司特有的计算资源和数据资源快速地学习和实践先进的技术。当然,这些公司是人才培养和市场开拓的受益者。

三、现状分析与问题思考

从中文信息处理发展现状来看,近20年是该领域迅速崛起和中国学者在国际舞台发挥作用的黄金时期。那么,这些丰硕的成果是否意味着中文信息处理的理论方法已经具有根本性的建树呢?

众所周知,自然语言处理方法有理性主义方法和经验主义方法两大流派。理性主义方法通常以乔姆斯基(Noam Chomsky)的语法理论为基础,建立基于规则和知识库的逻辑推理系统。而经验主义方法则以数理统计和信息论为基础,实现基于大规模语料库的统计机器学习方法。两种方法的融合正在成为人们探索的第三条路径。这些方法在目前的自然语言处理系统中都发挥了重要作用,但是,计算机要从中文信息“处理”走向真正的“理解”还有很长的路要走,在这条遥远的征途上至少需要跨越三条鸿沟:(1)建立符合中文(这里尤指汉语)语言特点的自然语言处理理论体系;(2)设计更加有效的机器学习算法和模型;(3)揭示和发现人类大脑理解语言的基本机理。

(一)现有中文信息处理方法的局限性

目前采用的中文信息处理方法和评价标准大都是从英语等西方语言的处理方法中借鉴过来的,无论是基于规则的方法,还是基于统计的方法,从来都没有针对汉语本身的特点“量身定做”。例如,传统的自然语言处理方法通常从词法分析(汉语词语自动切分)开始,到句法分析、语义分析,分阶段逐步进行,不同层次的任务往往是独立完成的。句法分析(syntactic parsing)是其中的关键环节,其任务是将给定的句子自动解析成完整的句法分析树。它的基本假设是每一个句子的句法结构都能够用一棵完整的句法分析树表示,如图2所示。

图2 句子“我读书。”的句法分析树

但是,这一假设对于汉语而言往往不能成立,至少是非常苛刻的。汉语句子中通常不使用标识结构信息的专用词汇(如英语复句中的which, that, where等引导词),是一种语义驱动的松散结构,句法和语义之间存在着千丝万缕的关系,而且汉语中标点的使用也不像英语那样有严格的限制。例如:

(1)我喜欢在春天去观赏桃花,在夏天去欣赏荷花,在秋天去观赏红叶,但更喜欢在冬天去欣赏雪景。

这是一个典型的流水句。根据我们对随机抽取出的4431个长度超过20个词的句子的统计,有1830个流水复句,占全部长句的41.3%(李幸、宗成庆 2006)。流水句结构看起来比较松散,但语义上却有紧密的联系。如果非要用一棵完整的句法树表示这种句子的结构,不仅在实现上非常困难,而且对达到语言理解的目标几乎没有太多帮助。过去几十年里,人们提出了大量自动句法分析的算法,目前比较著名的句法分析工具有:Collins Parser、Bikel Parser、Charniak Parser、Berkeley Parser、Stanford Parser、MST Parser、MaltParser和MINIPAR Parser等。但这些系统在规范的汉语文本上最好的句法分析性能(短语准确率)也只有86%左右,而日语和英语的句法分析性能已经超过90%。即使C. Dyer 和M. Ballesteros等人近期实现的基于神经网络的句法分析方法的性能得到了进一步提升(Ballesteros et al. 2015;Dyer et al. 2015),汉语句法分析器的性能仍然比英语的低5个百分点左右。

对于篇章结构分析来说,目前广泛采用的篇章理论包括修辞结构理论、中心理论、脉络理论、篇章表示理论和言语行为理论等(宗成庆 2013),而这些理论无一例外地来自西方语言学。汉语的篇章结构与英语有明显的区别,这是大家所共知的事实。根据我们对2016年国际计算自然语言学习会议(Conference on Computational Natural Language Learning,简称CoNLL)发布的汉英篇章论元关系分析评测任务的语料统计,汉语中非显式的篇章单元之间的关系占到了78.3%,远远超过了英语篇章中54.5%的比例。汉语中篇章单元之间可使用的连接词有385个之多,而英文中只有100个左右(Kang et al. 2016)。而且汉语中的标点逗号可以隐含地表示某种篇章单元关系,例如表示前后两个单元之间隐含的转折、让步、因果等关系,而英语的标点不具备这样的功能。所有这些差异都清楚地提醒我们,汉语需要建立自己的篇章分析理论。

值得庆幸的是,国内已有专家在汉语篇章分析理论研究方面进行卓有成效的探索,如宋柔(2012)提出的“广义话题结构理论”、王德亮(2004)研究的“篇章向心理论”等,但离建立相对成熟和完善的汉语篇章理论体系还有较远的距离。

另外,汉语中的指代消歧也是中文信息处理面临的棘手问题。请看如下两个例句:

(2)夫人穿着很得体,举止优雅,左臂上挂着一个暗黄色的皮包,右手领着一只白色的小狗,据说是京巴。

(3)夫人穿着很得体,举止优雅,左臂上挂着一个暗黄色的皮包,右手领着一只白色的小狗,据说是局长的太太。

在这两个句子中除下划线标识的部分以外,其余部分完全一样,但“据说”的所指完全不同,一个是指“小狗是京巴”,而另一个则是指“夫人是局长的太太”。这种表达方式在英文中是不可能出现的。

综上所述,不同语言具有不同的特点,无论在词法、句法、语义等不同的层面上,还是在词汇、短语、句子和篇章等不同的语言单位上,有共性,也有差异,尤其语义与语言的文化背景密切相关。我们认为,不存在与语言无关的自然语言处理方法和全世界语种通用的自然语言处理理论体系。最终要解决中文信息处理的问题,使其真正实用化,必需建立适合中文语言特点的理论体系。

(二)现有机器学习方法的缺陷

20世纪80年代末期、90年代初期以来,统计机器学习方法逐渐兴起,并成为当前自然语言处理领域的主流方法。其基本思路是,基于大规模人工标注的语料样本建立数学模型,通过调试模型的参数使其达到最优(这一过程称作模型的训练过程)。所建的数学模型就像一个小学生,标注的语料则是老师为学生提供的样例,而训练过程则类似于老师教小学生如何按照样例学习句子分析方法或完成其他任务的过程。最终小学生的成绩如何取决于学生本身的能力、样例规模的大小和学生学习的技巧,对应地,统计模型的性能好坏取决于数学模型本身、训练样本规模的大小和模型参数的调试情况。

序列标注方法是自然语言处理中常用的一种典型的机器学习方法。以汉语自动分词为例,序列标注方法的基本思路是:每个“字”(包括字符、数字、标点等文本中出现的任何符号)只有4种可能的身份出现在文本中,即词首字(B)、词尾字(E)、词中间字(M)和单字词(S)。对于给定的文本,如果能够对每个“字”打上一个标签(B、E、M或S中的任意一个),那么分词任务就完成了。被标记为B和E的“字”及其之间标以M的“字”(如果有的话)构成一个分词单位,被标记为S的“字”独立成词。例如,句子“我喜欢读书。”的序列标注结果为:我/S 喜/B 欢/E 读/S 书/S 。最终的分词结果就是:我/ 喜欢/ 读/ 书/ 。

在为每个“字”打标签的过程中,依据当前“字”的上下文计算对当前“字”贴上某种标签的条件概率,选择概率最大的候选标签。实际上这是一种通过上下文分类进行标签选择的方法,称为区分式方法。确定上下文多大范围内、哪些因素可作为计算概率的条件的过程,则称作特征选择。

类似地,命名实体识别、语块识别和篇章单元识别等,都可采用这种方法实现。

统计方法的优点不言而喻,它避免了基于规则的方法中由于人工编写规则的主观性因素可能导致的语言现象覆盖面小甚至错误的情况。有些自然语言处理任务(如机器翻译)并不需要人工标注语料,这就大大地减少了系统对人的依赖性,极大地提高了系统开发的效率。这也是统计方法备受青睐的重要原因之一。但是,目前的统计方法仍然存在若干问题和不足。归纳起来,这些缺陷包括:

1. 模型性能过于依赖训练样本

根据上面的介绍,训练样本的质量和规模对模型最终的性能起着至关重要的作用。一般而言,如果样本的规模太小,或者样本的质量太差,模型的性能肯定不好。人工标注大规模训练样本同样是一件艰苦的工作,而且标注样本往往难以随着语言使用情况的变化而自动调整。即使机器翻译等任务不需要人工标注的训练样本,但仍然需要样本的数量达到足够的规模,这对于有些领域或语言对来说是无法做到的。例如,波斯语与汉语之间的自动翻译系统就很难收集到大规模波斯语与汉语句子级双语平行语料,即使在新闻等公共领域,收集几十万句对都是困难的,更不必说在某些特定领域。

2. 固化的模型参数导致模型无法处理“陌生”的语言现象

在统计方法中模型一旦被训练完成,参数是被固化的,对于超出特征预设范围的语言现象完全无能为力。例如,在词义消歧任务中我们通常根据歧义词出现的上下文建立分类模型,由上下文决定词语的语义。以“打”字的词义消歧为例,“打”字做实词用时有多个含义,“打毛衣”“打电话”和“打篮球”等不同表达中“打”字的含义各不相同,因此可以设定“打”字前后一定范围内的上下文词作为分类特征构建分类模型。假如设定上下文窗口范围为±1(即在当前词前后一个词的窗口范围内),大多数情况下“打”字的含义都可以区分出来。但是,对于超出窗口范围的情况模型便无能为力了。例如,在句子“张三打了一壶绍兴老酒。”中,“打”字与“老酒”之间间隔4个词,这就很可能导致模型误判“打”的词义。

3. 缺乏领域自适应能力

模型对训练语料所在领域的语言现象处理可能表现出较好的性能,但一旦超出领域范围或测试集与训练样本有较大差异,模型性能将大幅度下降。例如,在标注的大规模《人民日报》分词语料上训练出来的汉语词语自动切分模型的准确率可达96%左右,甚至更高,但在微博等非规范文本基础上训练出的分词性能至少要低5个百分点左右。在LDC汉语树库上训练出来的句法分析系统准确率可达86%左右,但在非规范网络文本上的分析准确率只有60%左右(宗成庆 2013)。统计模型对领域自适应能力的缺乏严重制约了该方法的应用。

4. 难以通过人机交互自动完成参数更新

人类在语言学习中可以通过人际之间和人与自然界之间的不断交互主动学习新的知识(包括语言知识和生活常识等),从而不断提高语言学习和理解的能力,但对于目前的统计自然语言处理系统而言却无法做到这一点。如何使系统通过人机交互过程,自动根据语用信息判别和提取有用的知识,完成模型参数的自动更新,以达到模型性能不断提高的效果,到目前为止还需探索。

5. 常识学习与归纳推理能力亟待提高

现有的统计学习方法在局部问题求解上可以达到较好的技术水平,但是在整体归纳和全局抽象方面却显得力不从心。例如,有如下一则新闻报道:

张小五从警20多年来,历尽千辛万苦,立下无数战功,曾被誉为孤胆英雄。然而,谁也未曾想到,就是这样一位曾让毒贩闻风丧胆的铁骨英雄竟然为了区区小利而精神崩溃,悔恨之下昨晚在家开枪自毙。

对这则新闻目前的词语自动切分准确率可达96%以上,命名实体(人名“张小五”)识别和句间关系分析(关键词“然而”引起的转折),甚至语义角色标注等,都没有太大问题,准确率至少可达85%以上。但是,对于一个自动问答系统来说,要正确地回答“张小五是什么警察?死了没有?”等,恐怕非常困难,因为它无法建立起“毒贩”与“缉毒警察”之间的对应关系,也不会知道“自毙”与“死亡”的必然联系。当前中文信息处理系统的常识学习和归纳推理能力亟待提高。

宏观上讲,统计是一种“赌博”方法,决策的依据是概率值大小,一定程度上有点“撞大运”的味道。其基本假设是:样本中蕴含着全部与特定自然语言处理任务相关的知识,而且处理任务(测试集)与训练样本符合同样的规律,只要有足够多的训练样本,模型就能够学习到相应的知识,并对待处理集进行正确的分析。且不说如何拥有“足够多”、多到多大规模的训练样本,只就模型本身的学习能力、区分能力和自适应能力等方面而言,还远无法与人脑的自然语言理解能力相比较。

(三)自然语言研究需要与脑神经科学和认知科学相结合

近年来,类人智能和类脑计算备受瞩目,尤其AlphaGo围棋系统战胜人类选手以来,人工智能被再度推向媒体舆论和学术研究的风口浪尖。但是,对于人脑是如何完成自然语言理解过程的,比如为什么一个三岁的儿童在学习一个新的词项时,父母只需做简单的解释,给出一两个例子,孩子就可以理解并使用所学的词项,而且基本不会用错,根本不需要大量的训练样本,目前尚无法给出非常清楚、合理的解释。

近年来基于神经网络的深度学习方法备受推崇,它在某种意义上的确模拟了人脑的认知功能,但是,这种方法只是对神经元结构和信号传递方式给出的形式化数学描述,并非是基于人脑的工作机理建立起来的数学模型,同样难以摆脱对大规模训练样本的依赖。

目前人们只是在宏观上大致了解脑区的划分和在语言理解过程中所起的不同作用,但在介观和微观层面,语言理解的生物过程与神经元信号传递的关系,以及信号与语义、概念和物理世界之间的对应与联系等,都是未知的。如何打通宏观、介观和微观层面的联系并给出清晰的解释,将是未来需解决的问题。从微观层面进一步研究人脑的结构,发现和揭示人脑理解语言的机理,借鉴或模拟人脑的工作机理并建立形式化的数学模型才是最终解决自然语言理解问题的根本出路。这需要与语言学家、脑神经科学家和认知科学家的共同努力和协作。

30多年来自然语言处理研究成绩斐然,但中文信息处理的理论研究和技术创新却有弱化之势。近年来中文信息处理技术性能的提高在很大程度上源自数据规模的扩大和计算机硬件性能的提高,在理论方法和数学模型上并没有太多的建树,真正面向汉语的计算理论和实现技术似乎并不多见。

在ACL-IJCNLP’2015录用的318篇论文中,115篇是关于深度学习方法的,约占36.2%。而深度学习方法的热度仍在持续升高,2016年会议录用的论文中与深度学习方法相关的论文比例再创新高。但是,如此大量的论文中,有多少还在关注汉语呢?据对ACL-IJCNLP’2015投稿论文的统计,在形态分析专题领域的28篇投稿(包括长文和短文)中,关于中文词语切分(中文信息处理的经典问题)的论文仅有6篇,其中包括一篇关于藏语分词的论文,而句法分析专题领域的全部108篇投稿中,只有22篇是研究汉语句法分析方法的。所有这些稿件都无一例外地采用了统计方法,它们的贡献基本是在别人提出的模型的基础上,做些特征选择和参数调整等方面的改进工作,在中文信息处理的理论创新方面鲜有建树。

近几年来随着国内指标(SCI/SSCI论文数量、引用次数、高被引论文数等)导向的各种学术评估愈演愈烈,很多研究开始一味地跟踪热点、追逐新潮,只是为了早出成果、快发论文,而最终忘记了解决中文语言理解这一问题的根本目标。这正是我们担忧的关键所在。

四、结束语

过去60多年中,中文信息处理取得了令人振奋的成果,尤其在统计方法成为主流方法之前,老一代学者创建了一系列面向汉语特点的理论方法和实用技术,并为中文语言资源库建设做出了卓越贡献,人才培养和队伍建设成就显著。而当统计方法一统天下之后,对语言学特性和认知规律的研究在自然语言处理领域并没有得到应有的重视。其实,早在10多年前有关专家就已经通过脑功能成像技术研究证明,汉英两种语言的名词和动词在人脑中的表征并不完全一样(Li et al. 2004)。如何针对汉语自身的特点和规律建立专用的模型和算法,恐怕才是最终解决汉语理解问题的正确出路。

总体而言,目前计算机处理自然语言的能力仅仅停留在“处理”层面,还远不能达到“理解”的水平,未来的任务艰巨而充满挑战。跟踪国际前沿是每一位科研工作者应有的素质和理念,但是,在学习和跟踪国际先进技术的同时,无论如何都不应该丧失以解决我们母语问题为目标的创新意识。

注 释

① 本文接下来讨论的中文信息处理研究现状和趋势,主要指汉语信息处理的技术状况。

② 参见http://www.keenage.com/html/c_index.html。

③ 第一部“中国语言生活绿皮书”——《中国语言生活状况报告(2005)》于2006年9月18日正式出版。此后每年发布一次,持续至今。

④ https://www.ldc.upenn.edu/。

⑤ ACL是国际计算语言学学会(Association for Computational Linguistics)的缩写。该学会成立于1962年,第一届ACL年会于1963年8月在美国召开,目前是本领域最具影响力和权威性最高的顶级学术会议,被中国计算机学会(CCF)认定为A类会议。第53届ACL年会与亚洲自然语言处理联合会(The Asian Federation of Natural Language Processing,简称AFNLP)第7届自然语言处理国际联合会议(The 7th International Joint Conference on Natural Language Processing,简称IJCNLP)于2015年7月26日至31日在北京举办,会议名称通常简写为:ACL-IJCNLP’2015。

⑥COLING创办于1965年,每两年召开一次,是本领域最具权威性和影响力的一流学术会议之一。

⑦International Committee on Computational Linguistics, 简称ICCL。网址:http://nlp.shef.ac.uk/iccl/。

参考文献

李 幸、宗成庆 2006 《引入标点处理的层次化汉语长句句法分析方法》,《中文信息学报》第4期。

李宇明 2007 《关于〈中国语言生活绿皮书〉》,《语言文字应用》第1期。

宋 柔 2012 《汉语篇章广义话题结构研究》,北京语言大学语言信息处理研究所研究报告。

王德亮 2004 《汉语零形回指解析——基于向心理论的研究》,《现代外语》第4期。

宗成庆 2013 《统计自然语言处理》,北京:清华大学出版社。

宗成庆、曹右琦、俞士汶 2009 《中文信息处理60年》,《语言文字应用》第4期。

宗成庆、高庆狮 2008 《中国语言技术进展》,《中国计算机学会通讯》第8期。

Ballesteros, Miguel, Chris Dyer, and Noah A. Smith. 2015. Improved Transition-Based Parsing by Modeling Characters instead of Words with LSTMs. Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing (EMNLP).

Dyer, Chris, Miguel Ballesteros, Wang Ling, Austin Matthews, and Noah A. Smith. 2015. Transition-Based Dependency Parsing with Stack Long Short-Term Memory. Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (ACL-IJCNLP).

Kang, Xiaomian, Haoran Li, Long Zhou, Jiajun Zhang, and Chengqing Zong. 2016. An End-to-End Chinese Discourse Parser with Adaptation to Explicit and Non-Explicit Relation Recognition. Proceedings of the SIGNLL Conference on Computational Natural Language Learning (CoNLL).

Li, Ping, Zhen Jin, and Li Hai Tan. 2014. Neural Representations of Nouns and Verbs in Chinese: An fMRI Study. Neuroimage 21, 1533-1541.

责任编辑:戴 燃

作者:宗成庆

上一篇:现代财务信息化管理论文下一篇:物权法中所有权制度论文