描写主义在COCA语料库功能中的体现及思考

2022-09-11

语料库是指一个由大量的实际使用的语言信息组成的, 专供语言研究、分析和描述的语言资料库[1]。语料库可以理解为存放语言材料的仓库, 为语言研究提供事实依据。语料库的建立不仅仅为词典编纂、教材编写提供帮助, 还应用于语言教学、翻译研究、人工智能、机器翻译、和统计语言模型等专业领域[2]。同时, 语料库的建立需要语言学理论的指导, 对于庞大语言材料的分类需求, 传统词典编纂中运用到的语言学理论如描写主义是否能为语料库提供指导成为本文探讨的话题。

一、COCA语料库简介

当下英语语料库中, 最经典的则为美国当代英语语料库 (CorpusofContemp oraryAmericanEnglish, 简称COCA) [3]。COCA发布于2008年, 是美国杨百翰大学的MarkDavies教授BYU系列语料库中最经典的免费英语语料库, 也是第一个大型的语料平衡的美国英语语料库。COCA语料库的言语材料收集于语言为母语的人群[4], 具有超大的语料库容。从语言种类划分而言, 它是单语语料库, 从语料类型划分而言, 它属于通用类型语料库。目前, 该语料库的库容包含5.6亿词的文本[5], 文本分为小说、口语、流行杂志、报纸以及学术文章五种不同的文体, 并且这五个文体类型中语料呈均匀平衡分布。

同时, COCA还将语料按照年份进行了细致的划分。COCA的主要功能有:列表显示各语料库类型中语料的使用频率和各时间段内的使用情况;上下文关键词显示以及语料比较显示。同时, COCA创建的目的在于:1.观察英语母语者如何说话和写作;2.统计词语, 短语和搭配的出现频率;3.看出语言的变迁与变化;4.设计真实的语言教学材料和资源。最后, 在COCA的用户统计中[6], 至少有三百六十万用户使用过该语料库, 其中中国用户占比第二, 约有43万人次。

二、描写主义在COCA语料库功能中的体现

(一) 描写主义语言学派的语言观

描写主义语言学是结构语言学领域中极具影响力的学派之一。描写主义强调语言的研究应该客观化, 系统化。美国语言学家布龙菲尔德 (Bloomfield) 在其书《语言论》中详细阐述了描写主义的语言理论[7], 提出了语言描述和语言研究的基本原则。其主要观点有:一、研究语言的第一步是精确地观察和记录语言;二、语言是动态的, 语言发生变化是经常的且正常的;三, 所谓“规则”只是同时代人们使用语言的惯例记述。其后, 菲力普·戈夫编纂了《韦氏第三版新国际英语词典》, 从此描写主义的原则对词典编纂的产生了深远的影响。

(二) 描写主义思想在COCA功能中的体现

COCA语料库在语料库的建立上主要贯彻了描写主义的思想。首先COCA的语料并非来自于单一的文学作品, 而是取自五种类型的文体, 即口语、小说、杂志、报纸及学术文章, 并且语料数量呈均匀分布, 具有平衡性。

另外, COCA最强大的功能在于索引语料, 如词汇、短语、搭配, 并能显示语料在语料库中的出现频率。例如, 当分别输入“实验室”的缩写“lab”和全拼“laboratory”时, 语料库会以表格的形式提供该语料的使用情况。可以看到, laboratory在学术类文章中使用最多, 每百万词的出现的频次, 也叫标准频次 (PERMIL) 为68.78, 而缩写lab在该场景中的出现频次为26.62, 可推断lab的正式度在学术类文章下不如laboratory。与此同时, 索引语料可呈现从1990年至今在每五一年为一个区间里的使用情况:lab的使用频次呈上升趋势;而laboratory在2005年之后出现下降趋势, 因此COCA客观地体现出词汇随着时间的变化在不同语境下的使用频次;描述了语言的使用情况, 而不像传统字典, 由编纂者的经验和知识对某个词进行判断和说明。

COCA的例句列举功能强大, 语料的例句展示全面、客观。例如, 当查询pervert一词时, 点击CONTEXT (语境) 选项后, 页面能呈现该单词在语料库中所有的例句。在传统词典中pervert优先的解释的是动词用法, 表“使堕落, 败坏”;而名词用法下中最不得体、表示“变态”的释义则放在了释义的最后一项。但当笔者使用COCA查询pervert时, 语料库所给例句 (按时间的顺序排列) pervert的常见用法作名词, 表“变态 (的人) ”。COCA还考虑到用年份排序例句可能会造成研究的不客观, 因为不同时间段某个词汇的用法可能会发生改变, 于是COCA提供“FINDSAMPLE”的选项, 语料库会随机生成100份或200份pervert在不同年代的例句示样。仍然, 当随机生成100份例句时, 90%例句中全是pervert表示“变态”的名词用法。用户通过COCA能客观得出结论:“不得体”的名词释义才是pervert最典型的用法。这一点再次证明COCA贯彻了描写主义的主导思想。

(三) COCA语料库功能的局限性

从COCA语料库的功能呈现可看出, 该语料库主要遵循了描写主义的原则。但是只依循描写主义去建立语料库是有局限性的。

(1) COCA是单语语料库, 对于索引的词汇不进行英文释义, 英语作为二外的使用者需要其它的词典才能理解语料。并且, 如果搜索的语料存在一词多义的现象, 该语料库对不同语义下词语的使用情况不进行分类, 更不要说列举各个含义的出现频次, 用户理解语料的难度也因此加大。

(2) 在COCA的使用页面中没有搜索示例, COCA默认用户检索语料时应懂得一定的检索规则和检索语言, 这使得初次使用该语料库的用户难以上手。举个例子, 如果想搜索单词brilliant的近义词时, 需要输入[=brilliant]才能进行检索。

COCA忽视了用户的认知需求。如果要完善该需求, 应该从认知语言学中找寻答案。认知主义认为, 语言描写应该考虑人类的认知过程[8], 人类的知识结构, 实际经验, 主观意识导致人们对语言的认知不同, 所以语料库的建立应该研究用户的认知心理和认知方法以改进查阅语料过程中用户的体验。

三、结束语

得益于贯彻描写主义语言学的语言观, COCA语料库在提供语料收集, 频次统计、例句展现等方面的功能表现突出, 可以为语料库的使用者提供大量的客观数据参考, 在词典编纂、教材编写、翻译研究、语言学研究领域具有重要作用。但是, 大数据时代下, 语料库的建立还应当参考语言学其它理论的原则, 例如, 认知主义认为, 语言描写应该考虑人类的认知过程。人类的知识结构, 实际经验, 主观意识导致人们对语言的认知不同, 所以词典的编纂应该研究用户的认知心理和认知方法以改进查阅词典中的用户体验, 满足用户检索信息的需求, 从而语料提库使用效果和效率, 满足用户的使用需要。从功能语言学研究视角而言, COCA语料库文体的分类, 细化垂直领域有待完善。最后, 该语料库还可以结合运用如词汇学、语义学、语用学、符号学等语言学科, 发展出先进的分析方法和评价体系, 最优化语料库的功能。所以语料库的发展离不开语言学的指导, 在世界语料库发展的浪潮下, 我国的语言研究者和教育研究者应认识到在语料库语言学的研究方面还有很大的研究空间, 所以我们应加大科研力度, 研究国外先进语料库, 并利用其成为新时代的研究工具, 为我国语料库的发展和完善做出贡献。

摘要:COCA语料库是当下使用最广泛的英语语言语料库之一, 其建立离不开语言学理论的指导。语料库汇集了大量真实的语言运用数据, 对语言学研究也具有较大的实用价值。本文基于对COCA语料库的功能的探索, 分析了描写主义对语料库建立的影响及其局限性, 提出语料库功能的完善离不开语言学各分支理论的指导。

关键词:语料库,描写主义语言学,认知语言学

参考文献

[1] Sinclair, J.M.Corpus, Concordance, Collocation[M].Oxford:Oxford的UniversityPress, 1991.

[2] 陈潇.语料库、语料库语言学及其应用[J].佛山科学技术学院学报, 2006 (04) :14-19.

[3] 王毅聪.智能网络语料库i Web及其在英语教学中的应用[J/OL].运城学院学报, 2018 (04) :74-80.

[4] 张欢.网络语料库COCA在大学英语教学中的应用[J].新乡学院学报, 2013 (5) :79.

[5] 袁家骅, 赵世开, 甘世福, 译.布龙菲尔德著.语言论[M].北京:商务印书馆, 2008.

[6] 王仁强.认知辞书学引论[J].外语学刊, 2010 (5) :36-39.

上一篇:10kV配网线路运行故障分析及防范措施下一篇:构建大学英语教师反思研究新理念