语料库研究

2024-04-30

语料库研究(精选十篇)

语料库研究 篇1

关键词:双语语料库,平行语料库,可比语料库,web挖掘

前言

随着统计自然语言处理技术的发展, 作为基础资源的语料库作用日益明显, 相应建设日益增多。语料库 (Corpora) 是指为特定的应用目标而专门收集加工, 具有一定结构、一定代表性和一定规模的原始语料集合[1]。现在的语料库通常以计算机为载体记录, 可被计算机程序检索。

根据划分标准的不同, 语料库可以分为多种类型[2]。按加工深度可分为生语料库和标注语料库, 按分布时间可分为历时语料库和共时语料库, 按用途可分为通用语料库和专用语料库, 按记载媒体分为单媒体语料库和多媒体语料库, 按表达形式分为口语语料库和文本语料库等等。

如果按照包含语种的数量, 则可分为单语种语料库和多语种语料库。目前以两种语言组成的多语种语料库最为常见, 又称为双语语料库 (Bilingual Corpora) 。而根据互译程度的差异, 双语语料库分为平行语料库和可比语料库。平行语料库 (Parallel Corpora) 是由源语言文本和翻译的目标语言文本构成的文本对集合, 这两种语言间存在严格的互译关系。可比语料库 (Comparable Corpora) 则是语言不同、内容相似但非互译的文本对集合。

随着全球化进程的快速发展, 世界各国人民在各个领域的交流日益加深, 而在交流过程中, 语言障碍问题突显, 直接促进了跨语言信息处理技术的兴起。双语语料库因其蕴含着大量的双语知识, 作为跨语言信息处理的基础资源, 在机器翻译、跨语言信息检索等领域显现出巨大价值。

本文从语料库构建角度出发, 对平行语料库和可比语料库构建技术分别进行阐述, 最后提出了目前语料库构建过程中存在的问题, 并对双语语料库发展前景进行了展望。

1 平行语料库

平行语料库是由源语言文本和它所对应的目标语言翻译文本构成的文本对集合, 两种语言对应的文本对之间语言形式虽有不同, 但表达的内容是一致的, 二者之间存在着互译关系。

平行语料库内部蕴含着两种语言单词、短语、句子、段落、篇章等不同级别的对应关系, 为跨语言信息处理技术提供了研究基础, 很早就引起了学者们的重视。近几十年来, 不同语言、不同内容、不同规模的平行语料库在国内外纷纷建立。

加拿大议会会议记录 (Canadian Hansards) 是最早建立的平行语料库, 这是一个由英语和法语构成的语料库。它收录了千万词汇级的官方议会辩论文件, 是早期学者们进行研究的重要资源。其它主要平行语料库还有欧盟议会会议记录平行语料库、马里兰大学Bible (圣经) 平行语料库、奥斯陆大学的英语挪威语平行语料库等。

国内的平行语料库建设在起步后发展迅速。目前, 北京大学、清华大学、哈尔滨工业大学、东北大学、北京外国语大学以及中科院计算所、自动化所、软件所等科研机构相继建立了一定规模的英汉双语平行语料库, 北京大学、哈尔滨工业大学还建立了汉日平行语料库, 同时, 内蒙古大学、新疆师范大学、西藏大学等高校建立了民汉双语平行语料库。

在平行语料库建设早期, 语料的搜集和处理主要靠人工参与进行挑选和整理, 来源也主要是国际国内大型会议的会议记录、宗教著作、文学艺术作品以及产品说明书等。这种获取方法大大限制了平行语料库的建设效率, 制约了平行语料库在规模、领域上的扩展, 更是难以满足时效性的要求。

随着网络的发展, 越来越多的网站为满足业务需求, 开始提供两种以上语言版本, 越来越多的网上信息正在以多语言的形式进行发布, 使得不同网站、同一网站不同网页、同一网页内部充斥了大量的双语资源, 为基于Web挖掘的双语资源获取提供了坚实的数据基础。

1.1 基于网页结构特征的构建方法

多语网站内部多个平行网页url地址之间往往具有很强的命名相关性, 这一特点很快为学者利用来构建平行语料库, 形成了多个著名系统, 普遍取得了很好的效果。

美国马里兰大学Resnik等人最早开始了这类研究, 他们开发的STRAND[3] (Structural Translation Recognition for Acquiring Natural Data) 系统对Web平行语料挖掘产生了深远的影响。多语网站网页中常常含有“中文版”、“English Version”等标示信息, 将这些信息作为锚文本, 通过搜索引擎很容易就可以获得大量候选网站资源。然后利用url地址命名相关性进行初步过滤, 方法是删去url中预定义好的语言相关字符串部分 (如“/cn/, /en/”) , 得到的新url地址如果相等, 就认为获得了一对候选双语平行网页对。STRAND还利用了同一网站页面往往风格一致、html结构高度相似的特点, 利用html标签等特征过滤掉候选集合中的非平行网页对, 最后根据Html对齐结果抽取HTML标签间相应文本还可以实现双语句对齐。STRAND系统共获取到大约3500对英汉双语平行网页, 在随机选择400个平行网页对进行的测评中, STRAND系统准确率达到了98%, 召回率也有61%。

另一个比较有影响力的系统是加拿大蒙特利尔大学聂建云等人开发的PTMiner (Parallel Text Miner) 系统。与STRAND类似, PTMiner也是利用锚文本信息通过搜索引擎来获取候选双语网站。不同的是, PTMiner没有简单的删去url地址中的某一部分, 而是预先定义了一个语言相关的词缀表, 根据词缀表, 将候选网页url地址中语言相关部分进行替换, 如…/chn_xxx.html替换后得到…/eng_xxx.html, 如果新url地址对应的网页存在, 则认为找到了一对候选平行网页。然后再利用网页结构、文本长度等特征进行进一步验证和过滤。PTMiner系统最终获取到的英文文本达137M, 中文文本也有117M, 人工验证准确率接近90%。

BITS (Bilingual Internet Text Search) 采用STRAND的方法下载指定域名下的所有网页作为候选, 然后根据网页中互译词占文本总词数的比例, 来判断是否为平行网页对。澳大利亚莫纳什大学陈纪淞等人开发的PTI (The Parallel Text Identification System) 结合了PTMiner处理url的方法和BITS中计算网页相似度的方法。

亚洲微软研究院的吴克等人开发的WPDE (Web Parallel Data Extraction) 在前人研究基础上, 将图片信息加入了锚文本中。在利用搜索引擎获取候选网站时, 将URL分成路径名和文件名两部分, 路径名利用预先定义的启发式字符串和一些匹配规则进行配对查找, 文件名的查找配对采用了最小编辑距离的改进算法, 这样的方式经过实验证明取得了更好的效果。

中科院计算所的叶莎妮等摒弃了预先定义好语言相关字符串的方式, 提出了一种自动发现网站内部平行网页命名特点的方法, 避免了预先人为定义以及大小写、省略词等问题带来的损失。

1.2 基于文本内容特征的构建方法

有些网站双语平行资源在同一网页上, 这种情况常常出现在双语学习类网站中。针对这种双语混合网页, 蒋龙等提出一种基于模板的方法, 利用翻译和音译模型寻找网页中的互翻译词对, 将其作为种子, 学习泛化的模板, 最后利用学习到的模板抽取网页中潜在的双语平行语料。林政等尝试使用下载策略发现双语混合网页, 根据互译信息进行确认, 再结合长度、词典、数字和标点符号、缩略语等特征抽取平行句对。总体来说, 双语混合网页数量不是那么丰富, 也很难做到领域平衡, 时效性差, 相应研究较少。

上面两种方法讨论了针对同一网页和同一网站不同网页双语平行资源的获取。实际上, 互联网上还存在着大量的更一般的跨站点双语平行资源。比如国外网站用英语发布了一条最新时事新闻, 很快有人将其翻译成汉语发布在国内网站上。研究人员正在尝试利用跨语言信息检索技术来获取这种更难以甄别的平行语料, 因为这种技术在可比语料库构建中应用更为广泛, 我们将在下一章节对这种技术进行介绍。

2 可比语料库

平行语料库因其语料间存在着良好的对应知识, 成为机器翻译、跨语言信息检索等研究的重要基础。然而, 平行语料库却面临着获取途径有限、资源匮乏、领域不平衡的问题。目前, 平行语料库语料来源不足严重制约了平行语料库在规模和领域的快速扩展, 更是难以满足时效性的要求。对于包括大多数少数民族语言在内的弱势语言而言, 情况更是艰难。

这种情况下, 可比语料库研究渐渐引起了人们的重视。可比语料库是语言不同、内容相似但非互译的文本对集合, 可比语料蕴含了三层含义:两种语言文本必须是独立产生于各自真实语言环境;两种语言文本在内容上具有一定的相似性, 结构和构建标准具有一致性;但是二者之间不具备严格的互译关系。非严格互译是可比语料不同于平行语料的主要特征。

根据两种语言文本的相似程度, 可比语料可划分为如下五个等级:A、Same Story, 同一事件且相同描述;B、Related Story, 同一事件但描述不同, C、Shared Aspect, 描述相关事件, D、Common Terminology, 含有相同的术语, E、Unrelated, 基本不相关。

可比语料仅需两种语言文本在内容上具有相似性, 降低了双语文本对匹配和对齐的要求, 导致可比语料提取双语知识难度增大, 不易直接应用于统计机器翻译等相关研究。但在当前双语平行资源严重不足的情况下, 可比语料相对平行语料具有来源广泛、领域全面、内容丰富和易于获取的优势。因此, 近年来可比语料库的研究与建设逐步兴起。

构建可比语料库的主要问题是通过特征匹配、跨语言信息检索等方式建立两种语言文本之间相似关系的映射。

2.1 基于内容特征的构建方法

内容相似的可比语料会在标题、文本长度、发布日期以及其它描述性字段等方面呈现出一些特征, 在可比语料库建设初期, Sheridan等等利用这些特征进行了早期的可比语料库构建, 可比语料匹配速度快但质量低。

Tao等认为, 同一时间段内的同一事件, 不同语言的描述基本是一致的, 那么可比语料中的互译词的词频分布具有很强的相似性, 相似度越高两个文本描述同一主题的概率就越大, 通过皮尔森相关系数计算词与词之间的相似度, 并结合词频和逆文档频率对权重进行调整, 以此计算源语言与目标语言文本的相似程度。这种方法不受语言种类的限制, 但是构建过程计算量庞大, 效率较低, 不适合构建大规模可比语料库, 对齐质量也无法保证。

Vu等将源语言与目标语言文本首先通过发布时间窗与标题内容互译词进行2层过滤, 得到候选文档, 再提取TNC (标题内容互译词) 、LIU (语言无关单元) 和MTD (术语词频分布) 3个特征, 来计算不同语言文本相似性。这种方法在计算效率和可比语料质量上都有一定提高, 但是会受到双语词典等资源方面的影响。

2.2 基于跨语言信息检索的构建方法

跨语言信息检索是给出一种语言的查询条件, 得到另一种语言检索结果的过程, 它能够迅速建立源语言与目标语言文档之间的映射关系, 被广泛应用于可比语料挖掘。其中提问式翻译策略应用最为广泛, 它的基本流程是:源语言文本经信息抽取生成源语言提问式, 再经过某种翻译方法变成目标语言提问式, 然后在目标语言中进行单语言检索, 获取候选目标语言文本集, 最后经过过滤获取可比语料。

Braschler等将英文文档内频度居中的词汇作为指示器, 通过词典翻译成德文词汇, 检索德文文档集后, 结合发布日期、文本中的专有名词、数词等特征, 通过设置适当的阈值挑选德文可比较文档。Munteanu等利用词典把源语言文本翻译成目标语言, 取每个词汇最可能的5个翻译组合成查询语句, 在设定时间窗内的目标语言文档中进行检索, 选择与源语言文档相似度排在前n位的文档组成可比语料。为了避免全文翻译, Huang等提取出源语言文档的关键词作为查询词, 提高了查询词对源语言文档的代表性, 然后翻译成目标语言后通过信息检索系统进行查询。Fiser等采用了逐步扩充语料的策略, 先采集部分语料作为初始语料, 再计算抓取的网络文档与初始文档的相似度, 将相似度较高的网络语料加入语料库中。Talvensaari通过Google获取英语、西班牙语、德语三种语言的领域词表, 利用主题爬虫采集可比语料来构建可比语料库。Leturia等同样利用了领域词表, 词表生成方法一种是直接收集不同语种的领域语料, 抽取关键词, 然后加入词表中, 同时, 利用已经生成的某种语言领域词表, 通过词典翻译生成目标语言的领域词表。

基于跨语言信息检索构建可比语料库极大地提高了大规模可比语料采集的速度, 其中关键问题在于查询词的选择, 这直接决定了源语言文档和目标语言文档的关联程度。

2.3 基于特定网页资源的构建方法

互联网上某些网站具有大量的多语种资源, 可以为研究者获取可比预料提供便利, 最为典型的就是维基百科。维基百科是一种自由、免费、开放的多语言百科全书, 更为关键的是, 维基百科在每个页面中显式给出了其他语言的链接, 为建立不同语言间的映射关系提供了巨大的便利, 成为可比语料构建重要的新型来源, 受到越来越多研究者的关注。

Yu等先从维基百科中抓取不同语种的网页, 再利用网页间的语言链接进行双语匹配, 构建可比语料库。Otero等也是采用了这种“先下载, 后匹配”的方式, 以维基百科类别信息作为主题约束, 以语言链接进行双语映射, 实现了特定领域的可比语料挖掘。也有学者采用了“先匹配, 后下载”的方式, 首先收集词表, 获取页面标题中含有词表中词语的单一语种页面, 然后使用语言间链接采集其他语种维基百科页面。Io等从Word Net中抽取命名实体, 将含有这些命名实体的英语维基百科页面下载下来, 然后利用语言链接获取对应的罗马尼亚语和德语页面, 构成可比语料。

从维基百科的多语言资源中挖掘可比语料主要利用维基百科提供的语言链接结构, 这些链接大大简化了内容相似性的分析, 即降低了算法的复杂度又提高了可比语料质量。然而维基百科的语言种类和信息量有限, 且多为知识性内容, 无法满足构建多语种、大规模、各领域可比语料库的需求。

3 结语

随着机器翻译等跨语言信息处理技术的深入, 资源的需求日益增加, 双语语料库建设得到了迅速发展, 为这些研究提供了坚实的数据基础。但是, 目前在基于Web的双语语料库获取方面还存在着一些不足, 需要进一步的研究和探索。首先, 对于网页地址命名有较强规律性的同一网站双语资源获取取得了较好的效果, 但是对于更一般的不同网站间研究, 在效率和成果上还存在着较大差距。另一方面, 国内主要研究还是围绕着英汉双语资源, 其它外语研究较少, 蒙古语、藏语、维吾尔语等少数民族语言虽有了一些成果, 但还是不能满足对资源的大量需求, 其它语言更是接近空白。

相信随着信息技术的不断发展, 投身到双语语料库研究的学者日益增多, 双语语料库建设将迎来更快的发展。

参考文献

[1]刘超朋.平行语料库概述[J].燕山大学学报 (哲学社会科学版) .2007 (S1)

[2]才让加.面向自然语言处理的大规模汉藏 (藏汉) 双语语料库构建技术研究[J].中文信息学报.2011 (06)

网络英语口音语料库研究 篇2

网络英语口音语料库研究

语料库的作用日益得到人们的认可,但是人们在运用语料库辅助英语教学时大多局限于词汇、语法和阅读等方面,忽略了英语语音的重要性.在当今世界英语各种口音盛行的年代,能否听懂别人带口音的.英语成为一种重要的语音技能.网络上的英语口音语料库填补了我国教材在英语变体输入方面的空白,应该成为英语教师常用的工具之一.

作 者:刘莹 LIU Ying  作者单位:广东外语外贸大学,英文学院,广东广州,510420 刊 名:外语电化教学  CSSCI英文刊名:COMPUTER-ASSISTED FOREIGN LANGUAGE EDUCATION 年,卷(期): “”(1) 分类号:H319.3 关键词:英语口音语料库   英语语音教学  

体育英语语料库系统建构研究 篇3

关键词:体育 英语 语料库 技术 构建

引言

本研究在筛选、整理体育系统双语文献、资料、教材、词典、国际招投标合同文本,开发特色专用语料库软件的基础上,构建了一个规模约50万字的体育系统专业英汉双语平行语料库,并以之为基础初步展开了体育系统英语方面的语言研究、翻译研究、教材研究、术语研究,从而为以语料数据为基础探索体育英语的语言特征、充实和完善业内现有的双语词典、提高体育系统计算机辅助翻译的质量与效率、改善体育系统人员对外交流和技术合作能力的培养等提供理念先进、技术进步的研究平台。

建设体育系统英汉双语语料库,可全面促进体育行业英语的教学与科研,并具有良好的社会化应用前景,面向体育行业提供高质量、高效率的计算机机辅翻译服务等,对于促进体育系统英语教学的系统化、科学化,改进人才培养模式,提升学术层次、拓展研究领域,推动体育服务翻译向产业化发展,有效提高体育行业外派人员英语培训的质量等均有裨益。

1 发展与现状

当前国内体育系统英语教育尚不发达,行业双语资料较为贫乏,行业计算机翻译研究更是罕见。本研究在考察了1995年至今我国体育系统英语教材的出版情况、有关体育系统英语的论文发表情况、以及正式出版的相关辞书、国内已知的语料库成果后认为:

体育系统英语方面的教材与研究较为薄弱,尚有数量较少,种类单一;材料来源狭窄、主观,不符合当前应用实际,缺乏代表性和权威性;结构散乱、深浅无度、编排不当、查用不便,可用性不强等缺陷。

专门服务于体育系统的语料库、尤其是双语语料库(平行语料库)尚未出现。语料库是一个由大量在真实情况下使用的语言信息集成的、可供计算机检索的、专门作研究使用的巨型资料库。语料库容量大、真实客观、检索快捷准确,在现代语言学研究和语言教育中地位越来越重要。我国的语料库的建设自20世纪70年代末,经过40多年的发展,已取得有目共睹的成绩。近年来较有影响的语料库有交通大学科技英语语料库(JDEST),约100万词次,广州石油英语语料库(GPEC),约 41万词次,北京外国语大学建立的汉英平行语料库、河南师范大学建立的用于研究特殊英语的中国英语语料库、解放军外国语学院建立的军事英语语料库、上海交通大学建立的新视野大学英语教材语料库等。但令人遗憾的是,专门服务于体育系统行业的语料库、尤其是双语语料库尚属空白,对体育系统英语的语言学研究和应用型研究(课堂教学、词典编纂、体育服务翻译)非常不利。

2 语料库的构建

本研究在实施过程中,将重点解决双语语料库构建的平衡性、适应性、权威性等难题。这些问题主要包括:1)如何使所选语料均衡地反映各分支、各领域在体育系统英语实际运用中的比重,从而为专业英语教材的编写提供客观、真实的选材参考;2)如何使语料库具备科学的架构,从而以一种体系适应多种研究的需要;3)如何保障入库语料的质和量,既使其拥有而必备的规模,又保证其质,从而保障语料库的权威性。

其基本实施过程主要由语料收集、语料库平台构建、语料入库、理论与实践研究几个方面构成。

2.1语料收集

本研究将遴选来自体育系统专业各主要领域与分支的中英文对照语料,在梳理、规范、加工、调整后构建出具有较强的广泛性、代表性、权威性,以及一定规模的语料库,使其初步具备为教学研究、辞典编撰、水电翻译工程、国际招投标谈判及后期服务的综合能力,并具有良好的可扩展能力,以便将来扩充与调整。

该部分主要涉及分类与选材。在分类方面,将体育系统英语分类,以备文本筛选。按内容和主题细化为更多子类,将这些子类按与体育系统这一主题的相关度进行权重与排序,充分考虑代表性与均衡,最终确定每一子类所占百分比,尽量使界线明晰、无重叠或少重叠。

将文本附加特征分类,以备文本输入。依语料库建设目的(语言、教学、辞典、翻译),可分“出处”(下设教材<下设名称、出版社、年月、地点等,其它类似>、专著、期刊、会议、互联网等可填或可选项)、“翻译方向”(下设英译汉、汉译英等选项)、“译者信息”(下设国别、性别、年龄、单位等可填或可选项)等。

在选材方面,将按上述分类和比例进行文本遴选。在第一步的实验性语料库建设阶段,可以就近和方便的原则取材,文本类型与比例等可适当放宽。注重材料的准确性、权威性。

2.2 语料库平台构建

主要指语料库软件平台的构建,包括前期工作,如功能描述与开发,中期开发与后期安装与调试等。已开发软件具备合用性(能够实现建库目的)、稳定性、先进性,开放性,便于后续开发和调整。例如,输入的文本须存放于数据库、而非文本文件中,须能够一内容多标注、多分类,供交叉选取和调用。须具备较强的自动对齐功能,对一对多、多对一、无对应、语序混乱等有便捷、科学的处理方法。除篇章级、段级、句级对应外,可实现自动词性标注、短语级、词级对应。须能够对输入内容进行校验,能够批量修改已录入的数据。检索便捷、高效、可选检索条件丰富。语料附码统一、一致,可增删、可更改等。

2.3语料入库

该阶段须投入较多的人力与时间。其难点在于标注与输入。须将以上材料按类标注,输入数据库。输入的文本须存放于数据库、而非文本文件中,须能够一内容多标注、多分类,供交叉选取和调用。对输入内容进行校验,以确保其格式、内容等无误。输入时,应至少实现句级的对应。词性标注以及短语级、词级的对应可结合实际情况考虑,但无论实施与否,都应为软件必备的功能。

2.4调试与改善

此为建库的后期阶段,可根据前期建设情况初步将语料库平台投入使用,根据其实际效果,形成反馈,进一步对平台进行完善,以使其最终达到能够满足语言学、翻译、教学、教材、词典编撰等多重目的。此阶段须对第一步构建的实验库为基础进行实验性研究,看能否满足建库目的和要求。对不符合目的的地方、不切实际的地方进行增删、改调,反复应用与调试,直至适用与稳定。

3 语料库的应用

建设行业语料库相当于将某行业最真实、最活跃的语料收集在一起,通过统计、分析等研究,探求其语言规律,找出常用术语和搭配,常用译文和表达规范等,因此对语言研究、教材编写、词典编撰、翻译研究与服务都有重要意义。[1]以之为基础做语言研究,因为其研究基于统计数据,将更有说服力;以之为基础编教材和词典,可以使教材或词典根据词频统计结果来筛选所收术语,因而使教材或词典更具备代表性、实用性和难度上的渐进性;以之为基础做翻译,则因其已收纳大量的匹配译文而在CAT等机辅翻译软件的帮助下大幅提高翻译的效率和准确性。[2]

本研究成果应用领域较宽、潜力较大,可服务于体育系统英语的语言、教学和翻译研究,进而以此为基础面向体育行业、企业提供高质量、搞效率的翻译支持,具有良好的可行性和较高的实际应用价值。

3.1教学服务

利用本双语语料库来梳理国内外体育系统行业的真实语料对弥补传统体育系统英语教材与教学的不足有着积极作用。与传统的教学模式相比,基于语料库的体育系统英语教学形式具有其自身特点和优势。语料库具有强大的搜寻、对比、排列、储存等重要功能。借助体育系统英语语料库,教材编撰者可以了解现实中最常用、最基础、最重要的行业语言知识点分布,从而,不至于主观臆断,造成关键语料的遗漏。[3]而学习者可以接触到一个由大量真实的体育专业语言材料构成的“虚拟仿真环境”,从而真正做到学以致用。在国外,利用语料库对学习者进行培训已成流行趋势,学员经过训练后,在术语翻译、译文语法规律掌握等方面都有显著进步。我们正积极探索新的教学模式,将基于本语料库的教学方法与传统教学模式相结合,以打破传统教学的时空限制,使教师与学习者可以通过运用网络语料库的功能,建立起一个新的教学平台,真正做到因材施教,大大推动学生的自主学习,提高学生的专业英语应用能力。[4]利用双语平行语料库提供的原文和相应的译文, 我们还可以引导学生有效提高专业英语水平。汉英双语平行语料库能提供较多的例句, 这有助于学生丰富词汇, 感受语境, 查找到更合适和地道的表达。

将体育系统英语语言特征与教学规律的研究结合起来,基于语料库编写新的教材,探讨新的体育系统国际化人才培养模式,可使我们的学生能够在最短的时间内、以最有效的方式熟练掌握实际应用中最有价值的专业术语与表达规范,具备较强的文献阅读能力、文献翻译能力和科研论文、招投标应用文等的写作能力,在到用人单位后的实际工作中迅速脱颖而出,有利于培养应用型的国际化体育系统人才。

3.2科研服务

基于本语料库进行体育系统英语的语言学研究使我们的科研成果更准确、更客观地反映实际,更紧密地与现实相联系,也使我们对体育系统英语的语言特征认识更为深化和具体。基于语料库统计分析来研究体育系统英语的语言特征与翻译规律使我们系统地、科学地、以量化为手段进行统计、分析,从而摆脱以往主观、随意、较为表面化的认识,为相关理论研究和指导提供切实依据。[5]从而使语言研究基于统计数据,结果更客观,课题组成员已有初步成果发表,其后续成果还将陆续产生。

3.3社会服务

双语语料库区别与单语语料库的重要应用之一即为采集翻译实例、搜寻术语搭配,从而为行业双语词典编撰和行业机辅翻译提供了基础。[6]采用基于实例的或基于存储的机器翻译方法,可以直接使用经过对齐的双语语料提高机器译文的质量。随着我国体育事业的迅速发展和体育服务的增多,大量的体育服务资料需要翻译,仅靠传统人工翻译无法满足快速发展的市场需求。而仅靠机器翻译,质量又无法保证。把机器翻译与语料库翻译结合起来,既可以解决效率问题,有可保障翻译质量,可使本行业的翻译迅速走向产业化。[7]一方面,其统计学结果将为双语词典编纂提供依据,考察现有双语词典的完备程度,或另行编撰新词典;另一方面,大规模双语语料库可转化为极具实用价值的翻译记忆库,为各种CAT软件所调用,成为计算机辅助翻译的核心。因此,本语料库随着语料的扩充与功能的完善,可大幅提高翻译效率和准确性,有助于将体育系统行业翻译从作坊式的人工个体翻译变成大规模自动化高效率的机辅翻译,并且,其投入使用的过程也即将成为其自我丰富和完善的过程,它将一边翻译一边汲取已译内容为下次翻译所使用,从而推动其库容如滚雪球一般增长,其价值未可限量[8]。随着本语料库规模的逐渐扩大,其效能将得到更大的发挥,可以向面向体育系统行业提供包括高质、高效机辅翻译等社会服务。

4 结语

本研究在国内首次构建了体育系统英语双语语料库,虽尚处于初级阶段,但已在教学、科研、行业翻译等领域取得初步成果,并展现出良好的发展前景。它运用统计学原理、互联网和计算机技术来探讨体育系统行业专业术语、专业词汇以及专业文章的语体特征,探索以真实语料为基础的教学方法与教材编撰,为更好地为体育系统英语教学的可持续发展、为体育服务翻译走向产业化、为体育系统的国际化人才培训提供理论支持和技术支持。因此,本语料库的出现有利于在国内基于语料库的体育系统英语研究方面开拓出新的空间,使我省在该领域居国内领先地位;有助于推出能够真实反映行业实际应用状况的体育系统英语教材,提升体育系统英语语言研究的科学性,并有利于探索体育系统英语语言特征,探求体育系统国际化人才培养之道;以及以语料库为基础构建国内首个系统、专业的体育英汉双语双向翻译记忆库,在将来有望结合CAT软件面向体育系统行业推出机辅自动化翻译服务。

当前我国的体育事业正处于跨越式发展的重要时期,“十二五”规划对体育事业高度重视,体育产业及体育教育事业的发展契机前所未有,体育系统英语语料库的建设与研究方兴未艾,大有用武之地。在我国体育事业迅猛发展的背景下,它必将在培养既懂英语、又懂体育和商务的复合型国际化人才,加深对体育系统英语语言特征的认识,提高体育系统行业术语的整理与规范,改进体育系统行业翻译的质量与效率方面发挥越来越重要的作用。

参考文献

[1] 刘法公. 论基础英语与专门用途英语教学的关系[J]. 外语与外语教学,2003,(1).

[2] 刘润清.21世纪的英语教学——记英国的一项调查[J]. 外语教学与研究,1996,(2).

[3] 李 硕. 科技名词翻译与档案意识 漫谈“体育”一词英译的历史变迁[J]. 档案建设,2011,(5).

[4] 杜思民,体育英语语料库建设研究[M].北京:光明日报出版社,2014.

[5] 张济华等. 语料库与大学专门用途英语(ESP)词汇教学探讨[J]. 外语界, 2009,(3).

[6] KENNEDY G. An introduction to corpus linguistics[M]. Harlow: Longman, 1998.

[7] 王海华等. 语料库语言学发展回顾及展望[J]. 大连海事大学学报(社会科学版),2009,(6).

[8] 王克非等. 双语对应语料库:研究与应用[M]. 北京:外语教学与研究出版社.2004.

作者简介:

国内英汉平行语料库研究综述 篇4

在CNKI上, 以“英汉平行语料库”为检索词来进行主题检索, 共有218篇以英汉平行语料库为研究对象或者以英汉平行语料库为研究平台的文章在相关期刊上发表, 而所有218篇文章均为2000年 (含2000) 年后所发表, 也就是说基于英汉平行语料库的相关研究是从2000年才引起国内学者注意的。在218篇文章中, 有75篇发表在《中国翻译》、《外语教学与研究》等外语类核心期刊上面, 占比为34.40%。

1. 论文发表时间特点

从时间梯度上来, 这218篇文章的年均数量分布图如下:

(注:2015年的数据为截止作者4月份发文的时间。)

如图所示:自2000年以来, 基于英汉平行语料库的研究数量基本上呈上涨趋势。其中2013年, 以平行语料库为相关研究内容或者平台的文章数量最多, 达到了37篇, 占总数的16.23%;而2001年则没有相关文章发表。且在2008年以前, 每年发表的文章数均低于平均值14.25篇。我们可以说, 国内的基于英汉平行语料库的研究以2008年为分界线, 2008年以前 (包括2008年) 为萌芽阶段, 而2008年至今为蓬勃发展阶段。

2. 论文专题分类情况

按照文章内容, 218篇文章主要可分为四大类: (1) 基于英汉平行语料库的语言研究; (2) 英汉平行语料库建设研究; (3) 英汉平行语料库的应用研究; (4) 其他;主要包括会议纪要、英汉平行语料库研究的综合性陈述等。每种分类的文章数量和所占百分比如下图所示:

其中, 有关英汉平行语料库建设研究的87篇文章中, 有49篇涉及专用语料库建设研究, 而剩下38篇涉及通用语料库的建设研究;有关英汉平行语料库的应用研究的112篇文章中, 仅有两篇涉及特定语料库的应用研究, 其原因可能为特点语料库的建设目的已经决定了该语料库的作用;而绝大多数 (112篇中的110篇) 为通用语料库的应用研究。这110篇文章对于语料库的应用研究涉及到了英汉平行语料库在以下几个方面的应用:翻译教学、翻译理论与实践研究、词典编撰等, 如卢鑫莹 (2006) 在其《翻译教学的新途径:双语平行语料库的运用》一文中讨论了英汉平行语料库在翻译教学中的应用;黄立波 (2011) 在其《基于双语平行语料库的翻译文体学探讨——以<骆驼祥子>两个英译本中人称代词主语和叙事视角转换为例》一文中则以英汉平行语料库为研究平台对翻译文体进行了讨论;李德俊 (2006) 在其《英汉平行语料库在双语词典编纂中的作用》一文中讨论了英汉平行语料库是如何在词典编撰中起作用的。

3. 基于平行语料库的研究的方法论指导

冯全功 (2013) 认为翻译学方法论体系中的研究方法主要有两种: (1) 理论研究方法, 包括怀疑方法, 定性方法, 系统方法, 信息方法, 评价方法, 理解方法和预测方法。 (2) 实证研究方法, 包括观测方法, 定量方法, 统计方法, 黑箱方法, 过程方法, 个案方法和实验方法。在218篇文章中, 共有11种研究方法被使用过358次, 他们分别为:个案方法、定量方法、观测方法、定性方法、评价方法、怀疑方法、信息方法、试验方法、过程方法、预测方法、理解方法。具体试用次数如下图所示:

由上图可知, 个案方法和定量方法被使用的频率明显高于其他研究方法, 究其原因, 可能是由于英汉平行语料库的内容属性:即英汉平行语料库全部是由真实语料构成, 因此, 基于此平台的相关研究很多需要对这些真实的语料进行量的分析。理解方法和预测方法由于涉及研究者主观的理解和参与, 因此试用次数较少。

总结

由以上数据可知, 在量上, 基于英汉平行语料库的研究在短短的十几年内已经取得了突破性进展, 且逐年仍保持蓬勃发展的趋势;从研究内容上而言, 对于英汉平行语料库的建设和应用的研究相对较多, 而基于英汉平行语料库的相关语言研究则相对较少。在对于英汉平行语料库建设的研究上, 通用语料库的相关研究相对较少, 且没有一个内容包罗性强的大型语料库, 很多已经建成的通用语料库的内容设置上有重复的部分;而基于某些特有目的所建的小型平行语料库则为相关研究开辟了另一条道路。在从语料库的构成来看, 英汉平行语料库的主要功能应该是作为一种工具, 因此, 关于怎样去充分利用这个工具以及在哪些领域利用这个工具更值得引起学者们的深思。

参考文献

[1]Baker.M.Routledge Encylopedia of Transaltion Studies.London:Routledge;Baker, M.1998b, Routledge Encylopedia of Translation Studies[Z].London and New York:Routledge.1998.

[2]丁树德.浅谈西方翻译语料库研究[J].外国语, 2010. (5) :61-66.

[3]冯全功.试论翻译学方法论体系建设[J].外语学刊, 2013:2013 (5)

[4]黄立波.基于双语平行语料库的翻译文体学探讨——以《骆驼祥子》两个英译本中人称代词主语和叙事视角转换为例[J].中国外语, 2011. (11) .

[5]李德俊.英汉平行语料库在双语词典编纂中的作用[J].解放军外国语学院学报, 2006. (5) .

[6]卢鑫莹.翻译教学的新途径:双语平行语料库的运用[J].外语教育, 2006. (3) .

[7]王克非.新型双语对应语料库的设计与构建[J].中国翻译, 2004. (11) :73-75.

[8]王克非.双语平行语料库在翻译教学上的用途[J].外语电化教学, 2004. (12) :27-32.

[9]王克非.双语对应语料库研制与应用[M].外语教学与研究出版社, 2004. (9) :P182-183.

语料库研究 篇5

一、前言

语料库语言学的诞生对语言研究以及语言学习都产生了巨大而深远的影响。语料库因其语料素材丰富,可操作性强,可量化研究相关内容,发展前景广阔等诸多特点在其发展建立起来之后便得到了世界语言研究者的广泛关注。20世纪的九十年代初期,在学者的努力下,基于语料库的翻译研究成为一种研究方法。Baker(1995)最先引进语料库进行翻译研究并指出,随即语料库成员建立大批量的“原文—译文”语料库以及掌握成熟的语料库研究方法以后,翻译界学者将揭示出翻译文本作为沟通媒介的重要载体的重要性。

二、翻译语料库的主要类别及翻译语言的普遍性特征

1.翻译语料库的主要类别

语料库采用不同标准,如研究目的和建库标准,可分为多种类型。英国学者Mona Baker认为与有三类语料库与翻译教学有关:平行语料库,多语语料库和可比语料库。所谓平行语料库(parallel cor?pus)指在收集某种语言的原创文本的同时,将其翻译成另一种文字的文本。平行语料库的成立,有利于语言研究者参照、对比两种文本在词汇、句法、语义及文本上的差异,尤其表现在翻译者培训、双语词汇教学、词典编纂以及机器翻译上。所谓多语语料库(multilingual cor?pus),是指建库人员根据类似设计标准建立起来的两个或两个以上的不同语言单语种语料文本组成的复合语料库。与平行语料库不同的是,多语语料库收集的文本完全是原文文本,其中不含翻译文本。在欧洲,多语词典编纂委员会已建立起这样的.语料库。所谓可比语料库(comparable corpus),是指建库人员在收集某种语言,如英语的原文文本的同时,也收录从其它语言翻译成英语的文本。通过采用可比语料库两种文本进行分析比较,语言研究者可以对特定的文化、历史环境中翻译的规范进行探索,从而找出翻译的普遍性。

2.翻译语言的普遍性特征

Bake(r1993)采用语料库语言学的方法对翻译英语的特征进行描述。翻译文本有其固有的特征,即翻译文本的普遍性(Translation Univer?sals)。所谓翻译语言的普遍性,是指译文和原文本想比较后,表现出来的典型差异性的特征。学界对翻译语言普遍性进行相关研究,认为翻译语言的特征可以概括为简略化、明朗化、规范化等。①简略化(simplification),又可名为“简化”,指翻译文本比原文本的语言更加简单,比如句型简化,高频词增多,用词范围缩小等。对比研究发现,当译者在译文过程中出现词义空缺时,常用上义词、近义词来代替等类似现象。②明朗化(explication)。明朗化又称“显化”,针对需从上下文中推导出的信息在译入语中予以明示的源语言。在翻译过程中,译者常常会采取一些提高译文明朗化程度的策略,使得译文更符合译入语的阅读习惯,使其更具有可读性。③规范化(con?ventionalization)或称为“范化”,指译者消除原文本独特的文本特征,用译入语中典型、规范的方式来生产翻译文本,而且翻译文本可能比译入语的原创文本更加“规范”。

三、对基于语料库的翻译语言特征研究意义的探讨

基于语料库来研究翻译语言特征有其十分重要的理论意义以及现实意义。翻译语言特征问题是基于语料库的翻译研究中核心问题之一,这对于这一领域理论上的发展具有很重要的意义。在二十世纪九十年代初期,基于语料库的翻译研究对于这一新领域的研究内容以及发展方向等方面研究都有着指导作用,使其理论上更加完善,也使得其可以更好地应用于翻译研究方面的实践。第一,基于语料库来研究翻译语言特征对于翻译教学的作用是巨大的。传统的翻译教学由于提供给学习者的材料数量少且品种单一等的原因,学习者对于翻译过程中所遇到的各种翻译语言普遍性特征把握不准确,不利于学习者主动性的发挥以及提升其翻译能力,教育应着重培养学生自主学习的能力,以此来激发学习者思维创新性及培养解决问题的能力基于语料库来研究翻译语言特征可以让学习者接触到大量的翻译实例,使得学习者可以自主发现语言的共性,从而改善自身翻译的策略,提高自身的翻译水平。第二,基于语料库来研究翻译语言特征对于研究译者风格有很大的积极作用。译者风格一直都是翻译研究中一项很重要的内容。 基于语料库的方法使可以对译者的风格等特点进行对比、分析以及诠释。

四、结语

基于语料库的“稍微”类副词研究 篇6

关键词:北京大学现代汉语语料库(CCL);稍微;语法;语义;语用

王力先生在1943年《中国现代语法》中提出了程度副词的二分法,把程度副词分为“相对程度副词”和“绝对程度副词”,这个观点影响至今。吕叔湘先生1942年曾提出“其实程度的差别也就是数量的差别……只有就一般情形而论,程度的表达只能借用一部分数量来活用,另外应用一些限制词.”这里的限制词就是指程度副词。程度副词作为副词中的一种,存在着不同的量级。从最高级“最”“顶”到较低级的“稍微”“略微,”或从过量级的“太”“过”到略低级的“有点”“有些”。它们在各自等级内显示了区别性特征。本文探讨的是相对程度副词中的一个小类,即通常表达低量级的“稍”“稍微”“稍稍”“稍为”“稍许”“略微”“略许”“微”“些微”“微微”等词语。这些词语之间十分相似而且是典型的相对程度副词,它们一般用来形容形容词及大部分心理动词。在实际使用中,这些程度副词不仅可以使程度减弱,而且还可以表示频率和情态。它们无论是在句法上还是语用语义上都显示了不同于其他量级程度副词的个性特征。

迄今为止,还没有人对“稍微”程度副词进行系统整体的研究,各种词典对它们的解释也是经常采用互释的方法来区别,如《现代汉语八百词》中对“稍微”“稍”的解释和“稍微”相同,《现代汉语虚词例释》、《现代汉语词典》也是如此。本文运用北京大学现代汉语语料库(CCL),通过普通查询,现代汉语,检索关键词“稍微”,共得出3253条结果,有效语料3242条,通过对这些语料的分析,对这类程度副词进行多角度全方位的描写,除探究其共性还比较了各自特性,以期望弄清这类副词鲜明的个性特征及在程度副词系统中所占的重要地位。

语法意义包括句法意义,语义意义和语用意义。“稍微”类程度副词作为程度量的标记之一,主要用来表示语法意义,其基本意义是弱化与减量,例如:(1)她使劲一推,只听“咔嚓”一声脆响,塑钢应声而断。(2)她稍微使劲一推,只听“咔嚓”一声脆响,塑钢应声而断。(3)在演讲之前,我纠正一下主持人吴明华先生介绍的错误,我不是智基创投的合伙人。(4)在演讲之前,我稍微纠正一下主持人吴明华先生介绍的错误,我不是智基创投的合伙人。

通过比较我们可以得出上面两组中的“稍微”出现与否并不影响句子成立,但是“稍微”出现后,整个句子就会置身于一种程度层级的环境中。

“稍微”类副词的引申义通常是限定性状程度量和动作时间量,标示出大致的语义范围,这类副词修饰性状程度量时,通常表示“轻微”的含义。其后成分具有语义可变性。“轻微”意义在表达中也包含“体积不重,数量不多”等。例如:(5)“我身体好,这边稍微重点没关系。”小李把绳子又移过去了。(6)记者:那不影响卫生吗?老板:稍微有几个,没关系,自己家里也有苍蝇。

“稍微”可修饰方位名词,修饰方位名词时候后面一般有标记成分,少数情况下可以修饰一般名词,不用于比较,表示少量,后面没有标记成分。“稍微的”具有形容词的性质。(7)印第安人跟欧洲混血的,这帮人在稍微下头一点,音乐也是有点混合的。(8)嘉丁纳太太站在稍微后面一点;正当伊丽莎白默不作声的时候。(9)真的,人有时真是把握不住自己,稍微的一个损失,没准就错上十万八千里。

“稍微”的修饰功能和搭配功能很少受到限制,是主观程度副词,主要修饰谓词性成分,修饰的动词主要是动作行为动词和少数心理活动动词,还有动词有、成;稍微修饰动词性成分是大多数不用于比较;可用于 已然也可用于未然;且VP要具有可控性,稍微VP…预设是原来不VP,要求小幅度的变化VP的程度,从不VP到轻微量度的VP,是对动作量的调整,用在能愿动词的前后都可以。(10)在俄罗斯稍微成规模的城市都可以找到剧院或音乐厅的踪影。(11)端详了一番,心中觉得稍微宽好了一点,吃了顿西餐,洗了洗澡。

“稍微”修饰否定形式在CCL中共有17例,其中稍微不+V/adj.格式共16例,其中14例为动词,2例为形容词,16例中后带“就”的10例。(12)对压实密度等数据,严格按国家标准控制,发现哪里稍微不合格,就推倒重来。(13)吐了就逼着他再吃,干活时指派他干重活,训练时动作稍微不到家就训一顿。(14)地区各路“诸侯”的事情,稍有“私心杂念”,稍想留点“后路”,稍微不愿“过清苦日子”,就会心慈手软,当不了黑脸包公。(15)李娟一怀孕,明显的反应就是……白天一坐下来,稍微没人打扰的时候,满脑子都是……自己都觉得……通过分析我们可以得出稍微修饰否定形式后面无标记成分,心理活动居多,用于未然和“就”连用一般用在复句中,充当假设复句和条件分句,稍微修饰否定形式表示量度的轻微,从反面强调褒义积极的重要性。

通过对CCL语料库的分析,我们得到了“稍微”类副词更详尽的用法,希望在以后的教学中能有所启示,敬请指正。

参考文献:

[1]张斌,张谊生.现代汉语虚词词典[M].北京,商务印书馆,2001.

[2]杨德峰.面向对外汉语教学的副词定量研究[M].北京,北京大学出版社,2008.

语料库的“教学加工模式”研究 篇7

国内外关于语料库的研究已经很多。国内的研究大都是介绍语料库的用途, 建库原则, 使用方法, 以及如何应用语料库到教学中以提高教学效果, 但是就如何普及语料库在教学中的应用及把语料库具体应用到教学中的实证研究并不多。因此本文将主要通过教学实例探讨在教学中应用语料库的必要性以及可行性。 (范晓明, 2010)

1 语料库对教学的促进作用

Sinclair积极主张将语料库资源用于语言教学, 认为师生可以直接进入资源, 通过观察词语索引和扩展语境, 自我发现和归纳语言形式 (卫乃兴, 2007) 。Hunston认为语料库对语言教师的职业生涯有两大影响, 其中之一就是语料库会导致对一种语言的新的描写, 从而使教师对教什么的看法产生根本性的转变。 (吴艳花, 2009)

在教与学的过程中我们经常听到“不地道”这个词。什么是“不地道”, 就是不符合本族语者的表达习惯。那么如何解决“不地道”的问题呢?如何解决不地道就涉及到教什么的问题。通过研究学习者语料库及对比分析本族语者语料库和学习者语料库可以使教师发现学习者在语言使用上存在的问题, 纠正问题, 并在教学中把本族语者地道标准的表达方式传授给学习者。 (范晓明, 2011) 把语料库应用到教学中, 外语学习者和外语教师将得到大量真实地道的语料资源, 学习者的外语接触量以及得到的语言输入将远远高于以往教师在课堂上所呈现的语言资源, 困扰语言教师以及学习者的‘真实语料’问题和真实交际问题将得到有效解决。 (李文中, 1999)

2 在教学中应用语料库实例简介及教学效果

在课堂上应用语料库之前, 教师已经把语料库的用途, 发展以及使用方法以讲座的形式传达给了学生。因此在课堂上有时直接应用语料库中所搜索到的语言信息, 而有时则给学生展示搜索到的结果, 让学生自己分析并发现地道真实的表达方式。课题组主要是在写作课上应用语料库。在正常讲授写作基础知识基本技能之外, 主要是在讲析学生作文时, 会搜索语料库, 把正确地道的语言使用形式传达给学生。本研究主要是在评析学生的四篇作文中应用语料库即:

“My view on environmental pollution”

“Will phones kill letter writing?

“My View on Reducing Carbon Emission”

“Academic Dishonesty on Campus”

在评析学生的作文中, 参照本族语者语料库, 比较学习者和英语本族语者在英语词汇及句型上的应用差别, 发现以下几个问题并进行讲解。

2.1 动词和名词的错误搭配

英语中有很多的固定搭配, 这些搭配是约定俗成的, 里面的词语是不可以随意更换的。而学习者在写作中则经常把某些词语的语义扩大化, 在使用上存在泛滥的现象。这些词包括get, make, have, take, do等。如make an appointment, make an ex periment, make a suggestion, make a decision这些是正确的搭配。然而在学生的作文中经常出现如下错误的搭配包括make any social service, make practice, make success, make production make communication, make the reform等 (史逢阳, 2007) get一词也被错误地使用, 如get progress, get success, get a bad influence等。通过搜索本族语者语料库, 可以发现在上述make的错误搭配中, 正确的词汇分别为serve, practice, succeed in, produce communicate, reform等。可以看出, 在make和get构成的错误搭配中, 学习者是受到汉语翻译的“做”和“获得, 得到”这一意义的干扰。 (史逢阳, 2007)

2.2 比较同、近义词

英语中存在大量的同、近义词, 它们之间的细微差别也很难通过字典和几个例句就辨别出来。因此不仅学生感到困惑, 教师在教授的时候也感到困难重重。语料库则帮助教师和学习者很好地解决了这一问题。通过对比分析, 就会很容易找出同近义词在词义, 搭配, 类联接以及语义韵上的区别。比如“忽视”这个词, 在英语中有neglect和ignore, 学习者总是弄不清楚什么时候用ignore, 什么时候用neglect。通过BNC免费在线搜索, 对比分析了两个词所使用的语境以及相关的搭配, 发现两个词如下的区别:

1) 在和duty这个次搭配时, ignore 17中全是用作动词, 而neglect只有一个是动词的用法。而在出现的17次中, 16次neglect都是用作名词。例如:

#Your neglect of duty is a matter between you and your em-ployer.

#Neglect of their duty involved severe penalties.

2) 在和could搭配上, ignore有134次, 而neglect只有8次。

3) 在和opinion搭配上, ignore有50次, 在这50次中, 有4个是动词+N的搭配。而neglect是0次。例如:#I can’t ignoreyour opinion.

4) 在和totally搭配上, ignore有11次, 而neglect只有1次。

5) 在和abuse搭配上, neglect是53次, 主要是名词+名词。而ignore只有1次, 并不构成搭配关系。

例如:#child abuse and neglect

mental abuse or neglect in their own childhood.6through neglect 32 through

6) 在和through搭配上, neglect是32次, 大部分是through neglect这种介词+名词的组合;而ignore只有2次, 并不构成搭配关系。

例如:

neglect over a period of years.

7) 而和介词by搭配上, neglect是94次, 大部分是by neglect介词+名词的搭配。而ignore18次, 几乎没有搭配关系。

8) 在和to搭配上, neglect有88次, 大部分是neglect to do something;而ignore有39次, to通常是前一个动词所附带的。例如:

#to neglect to tell anyone what is going on.

2.3 纠正用词偏离

通过搜索本族语者语料库, 学习者可以接触到真实可靠的目标语, 掌握词汇地道的用法;并通过对比分析学习者语料库和本族语者语料库, 教师可以发现学习者在目标语使用上所犯的错误, 并帮助学习者纠正。学习者在词汇用法偏离的错误包括误用/错误 (misuse) 、多用 (overuse) 、少用 (underuse) 、回避 (avoidance) (俞燕明, 2007) 。以cause为例:

通过把搜索结果展示给学生, 学生通过分析很直观地发现英语本族语者把cause都用于表达消极的事上, 如“The fire was caused by a bomb”, 因而呈现明显的消极语义韵;而在学生的作文中有不少积极用法 (“Better life are caused by technology improvement”) 。 (俞燕明, 2007) 通过在课堂上引用语料库的语料并适当地向学习者展示搜索的过程, 可以让学习者发现自己在语言使用上和本族语者之间的区别, 并有意识地纠正自己的语言使用。久而久之, 学习者可以养成经常搜索语料库, 提高学习者的自主学习能力。

2.4 学生访谈及教学效果

从2012年3月份开始在《写作》课程上应用语料库, 并在此之前对语料库的相关知识及语料库的使用说明对教师及学生进行了培训。在教学中应用语料库经历了一个半学期之后, 于2013年9月份对一名同学进行了采访, 以下为访谈的内容。采访者为本课题组成员, 被采访者为2011级英语专业1班某同学。

采访者:本学期, 在写作课上老师在教学方法上有什么变化吗?

学生:在讲解作文时, 应用了语料库中真实的语言信息。

采访者:你怎么看待语料库在教学中的应用?

学生:通过问卷里的问题, 我了解了语料库这种语言材料的存在, 通过参加两次讲座, 一次是关于语料库的建库原则, 应用价值和前景的;另一个是关于如何使用语料库的。通过对语料库相关知识的学习, 我认识到语料库的价值, 除了在课堂上认真听老师从语料库中搜集的真实语料信息之外, 自己在自我学习过程中也尝试着使用语料库, 并且在字典的选择上也采用建立在语料库基础上的字典, 我觉得受益匪浅。

采访者:能举个例子吗?

学生:好的。比如在写英语作文时, 我总弄不清楚, “忽视”这个词, 在英语中有neglect and ignore.我总是不知道什么时候用ignore, 什么时候用neglect。这个问题困扰我很久了, 查字典也没有弄清楚。老师在课堂上展示了从语料库中搜索的语料, 并总结了两个词的用法区别, 使我对这两个词的区别有了清晰的了解。

采访者:除了帮助你查询近义词之间搭配的不同之外, 通过对语料库相关知识的学习, 你还有什么收获?

学生:我觉得我找到了一个好老师, 一个无所不知的老师, 不仅帮助我区分近义词, 而且帮我学会正确的搭配。以前在学习时, 总是花费很多时间去记忆单词, 以为词汇量大, 就可以把英语学好, 可是即使自己词汇量很大, 在写作时, 还是不知所措, 无话可说。在学习语料库相关知识之后, 我不再是单独地记忆某个单词, 而是记忆lexical chunks, 这样收获真的很大, 比如:在阅读文章时, 我就会把搭配标记出来, 而不再是标记某个词了。对自己的作文很有帮助。记得老师在课堂上给我们一篇本族语者写的文章Why I came to college我在这篇文章中学到了很多语言知识, 比如:up to that point in my life, draw the conclusion that, put this question to myself, for many times and at many occasions, make a contribution to, a well-rounded person, expand one’s mental horizon等等, 收获特别多, 感谢老师, 感谢语料库, 现在我一遇到学习中的困难, 不再觉得无路了, 而是首先想到语料库能不能帮上忙, 语料库的存在也大大地提升了我自主学习的能力。

3 本研究的问题及前景展望

本研究不仅从理论上而且从教学实践上充分论证了语料库巨大的应用价值。最开始的教学实践只是在课题参与者所教授的课程上应用语料库, 主要是《写作》课程, 进而推广到《综合英语》课程上, 语料库在《写作》及《综合英语》课程上的运用不仅提高了教师讲课的自信心和从容度, 并且为教学目标的达成起到了巨大的推动作用, 解决了一直困扰师生的真实语料的问题。其研究及应用成果可以广泛地应用到英语教学的各个科目上, 如《听力》, 《口语》《阅读》, 及《翻译》等课程上。学习者运用英语的能力有一定的提高, 学生的自主学习能力也明显地提高了。鉴于本课题的研究时间有限, 应用范围及教学效果并不是那么显著, 今后将继续研究语料库在教学中的应用价值并在教学中广泛地推广这一教学方法。

参考文献

[1]范晓明.唤醒英语教师应用语料库的意识浅议[J].长春理工大学学报, 2010 (11) .

[2]范晓明.论语料库的发展及对英语教学的影响[J].教育科研, 2011 (5) .

[3]范晓明.语料库视角下的大学生英语自主性学习能力培养模式探究[J].黑龙江教育学院学报, 2012 (12) .

[4]李文中.语料库、学习者语料库与外语教学[J].外语界, 1999 (1) .

[5]史逢阳.基于CLEC语料库动/名搭配错误探究词汇教学[J].天津外国语学院学报, 2007 (7) .

[6]卫乃兴.John Sinclair的语言学遗产-其思想与方法评述[J].外国语, 2007 (7) .

[7]卫乃兴.语料库语言学的方法论及相关理念[J].外语研究, 2009 (5) .

[8]吴艳花.语料库与英语教学[J].黑龙江史志, 2009 (9) .

基于语料库的翻译研究新范式 篇8

关键词:语料库,翻译研究,翻译理论,翻译实践

一、引言

基于语料库的翻译研究开创了新的翻译研究方向, 它是建立语料库语言学和描述翻译研究的基础之上的一种新的研究范式, 是通过计算机检索和数据统计, 采用定量与定性相结合的方法对翻译现象进行描述, 并在充分描述的基础上揭示翻译本质。在国外翻译研究领域, 基于语料库的翻译研究一般以Mona Baker 1993年发表的“Corpus Linguistics and Translation Studies:Implications and Application”为开始, 标志着语料库语言学和翻译研究的结合, 而国内则以“汉语‘副职’英译的语料库调查研究”一文作为第一篇比较系统的基于语料库的翻译研究的文章。Mona Baker (1993:243) 预言, 随着语料库方法论的完善以及原语文本和翻译文本语料库的使用, 必将让翻译研究者揭开“翻译文本作为沟通活动媒介的本质”。

二、基于语料库的翻译研究及其分类

基于语料库的翻译研究是一种定量和定性相结合的实证性研究, 受Toury和Holmes对翻译研究的划分图示的启发, 基于语料库的翻译研究大致可以分为两大类:理论性研究和实践性研究。 (Hunston, 2002:123) 就翻译理论而言, 语料库主要通过探讨某种意思如何从一种语言转换成另一种语言, 通过比较译文和对应母语中的语言特征及其出现频率来研究翻译过程。就翻译实践而言, 语料库为译员培训提供了工作平台, 同时也为开发机器翻译及机辅翻译之类的应用软件打下基础 (王克非, 2007:11) 。Laviosa (1998a) 认为, “基于语料库的方法正在不断发展, 从理论性的阐述和实证性的发现发展成为一个连贯的、综合性的、丰富的方法论体系, 用于解决有关翻译的理论、描述和实践等一系列问题。

三、基于语料库的翻译理论研究和实践应用

基于语料库的翻译研究使研究方向从传统的研究范式转向验证式的描述翻译研究范式, 从规定性的方向转向描述性的方向。它以语料库中的原文和译文文本为研究对象, 通过计算机检索和统计词频, 词汇密度, 类符, 形符, 类符形符比率, 句子长度, 词语搭配, 句型等来分析翻译现象, 这种研究方法在翻译共性、翻译规范和译者风格等理论研究中发挥着重大的作用, 在译员培训, 翻译教学, 机器翻译和机辅翻译等方面也有很大的优越性。

1、翻译共性

翻译共性又称翻译普遍性或翻译普遍特征, 包括翻译显化, 简化和范化等, 主要体现在词汇、意义、形式等方面。翻译共性可以分为译语型共性和原语型共性。前者正如Mona Baker (1993) 所认为的, 翻译共性是“翻译文本而不是原话语中出现的典型语言特征, 并且这些特征不是特定语言系统干扰的结果”。后者正如柯飞认为的, 翻译共性是“译文中呈现的有别于原文的一些典型的、跨语言的和有一定普遍性的特征”。根据语料库研究表明, (Baker) 提出了翻译普遍性主要体现了四种特征:显化、简化、范化、平整化, 其中又以显化的研究最为集中。用语料库研究翻译普遍性的优势非常显著:语料库作为一种量化研究、穷尽化研究的现代化手段, 将翻译普遍性研究从最初的直觉的、模糊的形式变为目前清晰地、具体的、可操作的形式, 将小规模的、人工的、局限于个别文本的研究变成了大规模的、系统的、比较性的、目标明确的研究, 把零星的、不具有说服力的研究变成了能够解释趋势与例外的连贯而丰富的研究 (laviosa, 2002:75) .

2、翻译规范

翻译规范和翻译普遍性不同, 翻译普遍性指翻译过程中所呈现出来的有别于原文的普遍特征, 它不受特定语言系统的干扰;而翻译规范是由社会文化所决定并随时间的变化而变化借助语料库可以发现特定文化和特定时期的翻译规范。通过研究分析同一文本的不同时期的译本可以发现不同时期的翻译规范;通过研究分析同一文本不同语言文化背景下的译本可以发现不同社会文化的翻译规范。在这一方面, 语料库起到了其他研究就手段不可比拟的优越性。

3、译者风格

根据Baker (1995:147) 对风格的定义“以一系列语言或非语言特征所表现出来的一种类似于大拇指指纹的个性特征”, 译者风格也就是指译者在译文中所显露出来的个性化习惯和翻译风格。传统的对译者风格的研究主要依靠研究者主观的感受, 研究对象的范围比较狭窄, 而通过语料库这一研究范式可以采用计算机检索的统计手段, 并且扩大了研究对象的范围, 通过对译文的句子长度、词频、类符、型符、句型等进行量化统计分析, 更加科学客观的发现验证译者风格特征, 这样的实证性研究比以往的传统研究更具说服力。

4、翻译教学和译员培训

对于翻译教学和译员培训, 语料库可以提供一种规模大、效率高、检索快捷的新的教具, 使翻译教学更科学、更规范。它可以提供其他译员的惯用翻译策略以及常用词汇和术语翻译, 并且可以帮助教师评估学生译文质量和反馈修改意见。语料库可以使学习者更快的提取学习资料, 可以提供丰富的例证。Bowker (1998) 发现, 在对专业领域的理解、术语的准确使用以及习惯表达方面, 借助语料库所完成的译文比用传统资源所完成的译文质量要高。

5、机器翻译和机辅翻译

自20世纪80年代, 基于语料库的翻译研究这一新范式的出现, 开创了机器翻译的新视野, 出现了第三代机器翻译方法即基于语料库的机器翻译, 它可以分为基于统计方法的机器翻译和基于实例方法的机器翻译两大类, 这两类都是以平行语料库为基础。在翻译过程中, 使机器在语料库中检索到相同或相近的翻译例子, 自动生成机器翻译产品。这大大提高了翻译速度和机器自动进行翻译产品转换的处理能力, 降低了人为劳动时间的消耗。依据基于语料库的翻译研究成果所发现的翻译特点, 还可以推动机辅翻译软件的开发来提高翻译效率。

四、基于语料库翻译研究的优越性和局限性

基于语料库的翻译研究具有语料丰富真实, 规模大, 检索方便快捷, 以实证为基础的研究更具说服力, 可以提供统计数据验证现行的理论等优势, 同时它也具有一些局限性, 如用于翻译研究的语料和语料库界定没有统一的标准, 研究方法和研究的控制变量也各不相同, 研究结果呈现多样化, 目前对基于语料库的翻译研究主要局限于印欧语系, 现有的研究成果用于非印欧语系是否适用, 是否所有的语言都呈现出翻译普遍性还有待进一步研究。

基于语料库的翻译研究范式在翻译普遍性, 翻译规范和译者研究等方面分析了大量真实的数据验证了现行的理论假设, 在翻译实践研究方面尤其是用于翻译教学, 译员培训和字典编纂, 同时也促进了机器翻译和机辅翻译软件开发, 由于目前国内这一研究还处于起步阶段, 现有的研究成果还非常有限, 这一新的研究范式给大家呈现了翻译研究的美好前景和潜在价值。

参考文献

[1]Baker M. (1995) .Corpora in translation studies:an overview and some suggestions for future research.Target7.

[2]Laviosa, S (1998a) .The corpus-based approach:a new paradigm in translation studies.Meta, 43 (4) .

[3]Susan Hunston.Corpora in Applied linguistics[M]Oxford:Oxford University Press. (2006)

外语教学研究的语料库途径 篇9

英语的corpus(语料库,复数为corpora)一词,在《语料库应用教程》(梁茂成、李文中、许家金编著)中的解释是:来自拉丁语,本意为body[1]3。如此解释,未尝不可,但无助于理解现代英语中corpus的准确意义。

英国牛津大学出版社出版的The Advanced Learner’s Dictionary of Current English with Chinese Translation(最早版本可追溯到上世纪四十年代),还有后来七十年代出版的Longman Dictionary of Contemporary English,都清楚地标明corpus的意义为:a collection of...而后者给出的唯一的、详细的解释是:a collection of基于两个意义,一是a collection of all the writings of a special kind, on a special subject, or by a certain person,如the corpus of Shakespeare’s works;二是a collection of material or information for study,如The dictionary is based on a corpus of 10, 000, 000 words taken form English books and newspapers。前一条可译为“文集”,后一条可译为“语料库”。可见,corpus一词在英美词典中早不作body解,语料库的概念也早已有之。

现在所指的语料库是计算机时代的产物,是基于计算机技术的一个电子文本集(a collection of texts stored in an electronic database),是由大量真实的语言材料和计算机检索系统组成的。“语料库分析是一种客观的定量分析”[2],“为研究提供可靠的范例保证”[3],在九十年代后逐渐得到普及应用。至今,利用语料库的研究已成为一大热点。从中国知网检索近5年来(2006—2011)发表在国内各种学术期刊上篇名有《语料库》的研究论文,多达2390多篇,发表在核心期刊的有660多篇。语料库语言学作为一种新的研究方法,应引起广大教师的重视。

二、基于语料库研究的层面和方法

基于语料库的外语教学研究可以进行基本文本特征分析、词汇难度分布特点分析[4],或通过统计关键词做话语分析,等等。研究可以从四个层面展开,可以采用“点—线—面”分析法。

(一)研究的层面

语料库辅助外语教学研究可从4个层面[5]9展开:(1)语言结构层面,主要进行字词、短语、语义、句法等方面的分析。(2)篇章结构层面,如起始语、含糊语、礼貌语、结束语,语音语调的篇章功能等。(3)话语语用层面,如批判话语分析、医生与病人会话的语用分析。(4)文学作品分析,如文学批评、作品赏析、文体风格对比等。

目前很多研究从语言结构层面展开,探讨某个词项的出现频率、共现语境、邻近搭配、句法特征、篇章结构等,以及对一些规则、理论进行实证[6]。进行话语语用批评和文学作品分析的论文也不少,主要运用主题词表和搭配检索,分析语料的文本特征、作者风格、主题思想、语用含义等方面的问题[7]。

(二)研究的方法

基于语料库的研究方法可以遵循“点—线—面”的语境扩展分析法[1]216。(1)点,是从词项的检索开始,如词频、主题性统计等。(2)线,主要是对词项的使用语境展开检索,如词项的搭配和左右的共现现象、语义韵、词块检索分析等。(3)面,定量分析之后,利用检索的数据,展开一个全面的定性分析。最后一环是重要的,缺少这个环节,研究就有局限性。

“点—线—面”的分析方法一般多为话语批评和文学作品分析应用。首先是提出研究的和要解决的问题,其次是语料和检索分析系统的准备,再次是检索分析和储存数据过程,最后是对数据的讨论和分析。

三、语料库研究的辅助性

语料库在外语教学研究中主要起辅助性作用。下面介绍几个例子,足可窥其一斑。

例子1:It rains cats and dogs.

这是英语教材中常见的一个短语,各种词典都可以查到。碰到下雨天,我们也许会适时地说上一句,“Oh, It rains cats and dogs.”。但是,这个短语是否是一个常用的或者是已经死亡的短语?我们无法知道。

有一篇介绍语料库的论文提到:英国语料库语言学家Rundell曾同一位荷兰妇女用英语交谈。那位妇女讲一口流利、地道的英语,几乎不带荷兰口音。但是,当她在谈话中使用rain cats and dogs这个短语时,语言学家意识到这妇女的母语不是英语。因为,现代英语中已几乎没有这种用法。为了证实这种直觉的判断,Rundell检索语料库,在1000万词的口语材料中,这个短语一次也没有出现过;在9000万词的书面语材料中也仅出现过一次[8]。语料库给了语感的实证支持。

例子2:关于some和any的用法。

一般教科书都强调some和any的区别在于any用于否定句和疑问句,而some用于肯定句。考试也这样考,否则就会丢分。有人调查了我国初中英语教材第一册69例any, 44例为否定句,25例为疑问句,无一例为肯定句。但人们不时发现any用于肯定,而some也不时用于否定,那么,去哪里搜集证据呢?语料库就帮了这个忙。国外有学者做了大量语料库调查发现,有50%的any竟用于肯定句,另有30%—40%的any用于否定句,用于疑问句的any仅有10%[5]49。就是说,教材所定的规则并不符合语言实际运用的情况。

例子3:关于cause的语义韵。

语义韵是指词项搭配的语义范围或色彩倾向。《语料库应用教程》中提到:一名在英国留学的中国研究生在论文中用了cause一词,英国导师却把cause这一词改为lead to,原文和修改文如下:

中国学生原文:Although economic improvement may becaused by tourism, the investment and operational costs of tourism must also be considered.

英国导师修改文:Although tourism may lead to economicimprovement, the investment and operational costs of tourism must also be considered.

老师把cause改为lead to,再把被动语态改为主动语态。而这两个词意思是基本一致的,但为什么非要改?英国教师因此检索语料库,大量检索行证实,cause一词总是与消极的、不好色彩的词连用,而lead to的搭配词好坏参半[1]114-116。中国学生把cause与积极倾向的词汇连用,所以英语本族语者就觉得不对劲。这也说明,我们这些非英语本族语学习者所不能体会的语感直觉,语料库可以帮助我们解决。

四、结语

最后,外语教学研究可自建语料库,具备两样东西即可:语料和检索分析软件。语料库可大可小,视能否满足研究需要而定。语料是否需要标注(annotation)也应视研究的需要而定。语料库研究是辅助性的,主要为具体的研究提供客观数据,增强分析力和说服力,可用于各种研究,如分析英文摘要的语法错误[9],或对英语修辞的理论探讨[10],教学上分析大学英语四、六级考试[6]、分析教材难度[8],语料库都发挥了积极作用,所提供的客观统计数据,使外语教学研究更具可操作性和可接受性。因此,对于大多数外语教师来说,掌握语料库的基本应用技术及使用方法非常必要。

参考文献

[1]梁茂成, 李文中, 许家金编著.语料库应用教程[M].北京:外语教学与研究出版社, 2010.7:3, 216, 114-116.

[2]罗建平.析美国总统就职演说的历时语言特征——一项语料库的量化调查[J].西南农业大学学报 (社科版) , 2011, (12) :125-129.

[3]罗建平, 黄伶燕.名词非范畴化与副名结构的聚合关系[J].重庆交通大学学报 (社科版) , 2010, (3) :128-132.

[4]罗建平.词汇难度分析RANGE32的可靠性考证[J].重庆科技学院学报 (社科版) , 2011, (20) :114-115.

[5]何安平.语料库语言学与英语教学[M].北京:北京大学出版社, 2004:49, 9.

[6]黄伶燕, 罗建平.基于语料库的CET4阅读理解相关性分析[J].韶关学院学报, 2011, (7) :81-83.

[7]罗建平.美国总统就职演讲主题词的语料库分析[J].浙江外国语学院学报, 2011, (5) :46-50.

[8]谢应光.语料库语言学与外语教学[J].外语教学与研究, 1996, (3) :28-33.

[9]罗建平, 黄伶燕.高校学报英文摘要中语法错误的分析——以自然科学版为例[J].中国科技期刊研究, 2011, 22 (5) :791-794.

基于语料库的Pig词义研究 篇10

在翻译英语俚语里关于数字、颜色及动物有关的词时,为了与汉语的一些习惯用法保持一致,经常会译成与英文表达中风马牛不相及的另外一些数字颜色及动物等。Green-eyed是“红眼病”,而不是“绿眼病”;Talk fish是“吹牛”,而不是“谈鱼”;Prairie dog是“草原鼠”,而和“狗”无关;“black sheep”译成“害群之马”,而不是“害群之羊”。这些差异让中国学生学习外语更迷惑,即便老师对于这些差异的解释也是大相径庭。然而,在涉及“pig”一词的翻译时,几乎所有词典都把它翻译成“猪、笨猪”等具有贬义的词。

二、语料库中的解释

从上表可以看出,这七部词典都比较注重pig作为名词的四种用法,即其本义一种家养的动物,转喻义“可食用的肉类;生铁”,比喻义“喻人贪、胖”,以及习语用法。其中《英汉大词典》对“pig”一词的释义最丰富,而其他几本词典则大致相同,在比喻义上都倾向于“pig”的贬义用法。然而比较它们的释义,我们可以看出一些显著的差异:其一,除“pig”的本义外,其他词义的释义顺序不一致,也就是说,对于“pig”的不同关联义的重要性,不同词典有不同的看法。其二,对于“pig”一词在喻人上的用法,不同词典看法不一致,有些注重“pig”这种动物的名称,有些注重其外形特征,有些注重其生活习性,有些则注重其蕴涵的丰富的文化和风俗。那么,“pig”一词的词义究竟是怎么一回事呢?在词典中该怎样对其释义呢?英汉词典关于“pig”的释义是基于汉语的理解还是英文的具体体现呢?

人类生活的方方面面无不受文化的浸润和影响。文化是人类赖以生存的基本环境,文化是有社会、民族属性的。动物词汇的文化意义是指它随着社会文化的变迁而产生的意义,这种文化是社会赋予词语的引申义、隐喻义、借代义、联想义、象征义、感情色彩、语体色彩及特有的含义。随着历史的发展,人类和动物的关系越来越密切。从原始社会,原始人偶然捕捉动物来充饥,到古代的狩猎,到近代、现代人们把许多动物当成他们的好朋友。

为了全面理解“pig”在英文中的含义,我们借助有1亿语料的大型语料库BNC,以“pig”为词条进行查询,一共得到1321个样例。我们选择BNC语料库进行研究,主要是因为该语料库的语料丰富,体裁多样,既有大量的书面语语料,又有部分口语语料,很具有代表性。然而,由于语料库中语料有个别时候会出现重复句子,产生重复样例。因此,经过整理,最后得到的有效样例为1316个。在这1316个有效样例中,有749个样例都是指家养的猪,即“pig”的本义;其他567个样例要么指称其他动物、人、地点或物体,要么通过转喻和隐喻意指某种特别的人或东西。下表就是“pig”的词义分布情况。

从“pig”的词义分布表可以发现以下几个特征:

其一,“pig”的词义分布广。“pig”的本义是指一种猪科哺乳动物,长有短腿、分践蹄,钢硬的毛和软骨的大鼻子,用于挖掘,尤指家畜猪。除此之外,它还有其他指称义、转喻义和隐喻义。它可以用来指称某些特别的动物,如guinea pig天竺鼠、wild pig野猪,可以用来指称某些特殊物质,如pig iron生铁、pig nut山核桃,可以用来指其肉,甚至可以用来指称人、地点、公司、书籍等。从语料库分析的结果表明,“pig”作为指称义和转喻义的样例竟然占40%。尤其是pig与guinea,iron和wild的搭配不容忽视。由此看来,“pig”具有许多不同的指称义,我们不能望文生义,把它们全部武断译为家畜猪。

其二,“pig”的隐喻义比较复杂,有时表示褒义,有时则表示贬义。尽管表示贬义的样例要占多数,但其表示褒义的样例也不能置之不理。猪发出的声音当然不好听,因而其样例全部体现为贬义,如make a noise like a pig,snort like a foraging pig,yell like a stuck pig,这些词都无一例外地与表示不舒服的词汇(noise,snort,yell)搭配,这是人们日常生活可以观察到的、体验到的。对于猪的外形特征,人们却有不同的看法:有些人注重猪的坏的一面,认为猪好吃懒做,用猪喻人表示人类贪婪、丑陋、愚笨、自私、令人厌恶、傲慢无理,因而就有了a stupid pig,a nose like a pig,a fat Irish pig,as sick as a pig,pig in the middle之类的短语。然而,有些却注重猪的好的一面,认为猪神态幽雅、肚子容量大,用猪喻人表示人类有知识、有肚量、有钱财、有风度等,如lucky pig,as rich as a pig in shit,holy pig,the learned pig等说法。由此看来,人们对猪的外形看法不一。英汉词典几乎毫无例外地认为“pig”一词的隐喻义只有贬义,这恐怕有待商榷。

其三,“pig”一词有丰富的搭配义。我们用concoct进行分析,结果发现,“pig”的左搭配词(前三个)主要是冠词a和the,它的右搭配词(后三个)主要是介词、代词等。就名词而言,与“pig”搭配的主要有guinea,iron,ear,poke,Street,都是十几次以上,尤其是guinea居然有64次之多,由此说明了“pig”指称义的重要性。就形容词而言,与“pig”搭配的主要有chauvinist,ignorant,wild,都是十多次,而与“pig”词义联系紧密的词如fat,greedy,foolish却很少出现。我们常用的“you pig”出现七次,词义主要是表示令人讨厌的人、色鬼等,但却没有一个词义表示蠢猪,这恐怕与我们的想法相去甚远。另外,“pig”还可以表示惊讶或异想天开,如Pig might fly,有时也可以用lying pig表示撒谎的人。

因此,我们可以这样来看待“pig”的词义。“pig”的原始义(或本义)是我们熟知的家养猪科类哺乳动物;其次是其隐喻义(主要是喻人),既可以是贬义,又可以是褒义;其三是其指称义,可以用来指称某些动物、物体、人、地点、公司等,最后是其转喻义,可以用来指猪肉、宠物、玩具和道具等。

三、结语

从语料库看,“pig”的词义远非我们常用的字典上的含义,其意义的丰富程度远远超出我们的想象。在进行词典释义时,我们既要注意词的本义,又要认真研究它的联想义,并从活的语料中探询词义的联系和变化,这应该是我们词典编撰的一个准则。当然,本研究也有一定的局限性,未能从多个语料库的角度进行对比分析来总结“pig”词义在现实语言中的意义,而且部分“pig”的词义在有限的语境中有时不好准确判断其词义。但是,利用语料库来研究词的语义变化,必将给词典的编撰注入新的活力,把词典编撰引入一个全新的领域。汉语和英语中动物词汇的产生和发展,与不同民族的历史背景、风俗习惯、社会生活、文化传统、思维习惯、价值观念、宗教信仰和生态环境等诸多因素紧密相连。它体现着两种分属于不同文化体系的种种差异,也映射出语言与文化紧密相连、不可分割。

摘要:利用语料库来研究词的语义变化是一个全新的领域。本文主要利用语料库分析“pig”的词义,在分析常用的字典上的含义中注意词的本义和它的联想义,并从活的语料中探询词义的联系和变化,最后通过多角度的语料库分析总结“pig”词义在现实语言中的意义,部分“pig”的词义在有限的语境中判断其词义的困难程度。

关键词:语料库,词典,词义

参考文献

[1]陆谷孙,主编.英汉大词典(第2版).上海译文出版社,2007.

[2]新世纪英语用法大词典.上海外语教育出版社,1997.

[3]R.E艾伦.牛津当代英语袖珍词典(英)原版.外国文学,1988.

上一篇:实施奖惩瓶颈下一篇:高校班主任工作