中文信息处理

2024-05-03

中文信息处理(精选6篇)

篇1:中文信息处理

中文信息处理与现代汉语语法论文

论文摘要:用计算机来处理汉语信息包括“字处理”、“词处理”和“句处理”三个阶段。“句处理”是实现自然语言的处理与理解这一关键性的技术难关。其中遇到的问题比较多:词性的判断;短语、句子的结构分析;歧义现象分析等等,最根本的方法是语言学家尽可能地把语言中的这些现象通过归纳、分析、总结出规律,再用形式化的方式描述出来,以便利于计算机处理。 论文

关键词:中文信息处理 现代汉语语法 句处理

用计算机来处理汉语信息,就是汉语信息处理,又称中文信息处理。中文信息处理包括“字处理”、“词处理”和“句处理”。“字处理”、“词处理”分别与汉字和词汇有关,在此主要谈谈“句处理”。

句处理的主要内容是,怎样使计算机理解自然语言(如现代汉语)的句子的意思,又怎样使计算机生成符合自然语言规则的句子。“句处理”所需要的语言知识,将是一种涉及到语音、语义、语法、语用等诸方面的综合性知识。目前。大家都深感现有的关于汉语的知识远远不能满足中文句处理的需要。单就句法方面的情况说。在中文信息处理过程中将会不断遇到我们想象不到的问题,许多问题在人看来还是比较容易解决的,但计算机就解决不了。也有一些问题,本身在学术界就有不同的观点,那么,就给中文信息处理增加了更大的困难。

用计算机来处理中文信息,遇到了很多困难,从现代汉语语法的角度来看,主要有以下一些问题:

一、词性的判断

由于汉语缺乏形态。汉语的词性判断主要是根据词的语法功能,不同的词,词性意义可能不同,同一个词出现在不同的地方,词性意义也可能不同,汉语中,大多数词有固定的词性,但有些词的用法比较特殊。例如:

1。他花了十块钱买了一盆花。

2。你用那个锁把门锁上。

3。他比雷锋还雷锋。

这三个句子中分别有两个“花”、“锁”、“雷锋”。但它们只是音同、形同,词性和意义都不同。句子1中的第一个“花”是动词,“花费”的意思,第二个“花”是名词,“植物”的意思。句子2中的第一个“锁”是名词,即“锁子”的意思,第二个“锁”是动词,是“锁住”的意思。句子3中第一个“雷锋”是名词,表示人名,第二个“雷锋”是形容词,表示“雷锋的精神、品质等”。具有一定语言知识的人大体上都能分清它们的区别。从传统语言教学的角度来讲,句子1中的两个“花”是词形、读音相同,但词性和意思都不一样,且两个“花”的意思之间没有联系,所以属于同音词。句子2中的两个“锁”,也是词形、读音相同,词性和意思都不一样,但两个“锁”意思间有联系,所以属于兼类词。句子3中的两个“雷锋”词形、读音相同,词性和意思都不一样,意思也有联系,但第二个“雷锋”属于词类活用。Ⅲ从教学的角度看,这种分类比较细致,便于人们的理解和掌握,但是,从中文信息处理的角度来看,这种分法太细,不便于计算机掌握。

目前,在中文信息处理中,是这样来定义兼类词的:亢世勇认为“兼类词有广义兼类词和狭义兼类词。广义兼类词就是中文信息处理中所说的现代汉语的同形词,对于计算机而言,只要词形相同,不管读音是否相同、意义是否相通,是同形异音词、同形同音词,还是一词多义、一词多种用法,都是相同的,都要从多个当中选一个。狭义的.兼类词就是指一般的现代汉语着作定义的,‘同形同音、意义上有一定的联系,且具有两类或两类以上词的语法功能的词”’。陆俭明认为,兼类词是“指同字形、同音而意义不同或词性不同的词”。如果按这种定义理解,以上三个句子中的两个“花”、“锁”、“雷锋”都可以称之为兼类词。因为,中文信息处理的目的是让计算机能根据具体环境判断出词的词性,从而准确理解其中的含义就可以了。尽管如此,但是,汉语词类是多功能的,一类词不需要发生词形变化就可以充当不同的句子成分,不同类的词可以充当相同的句子成分,这样就给兼类词区分带来了更多的麻烦。因而,兼类词的选择是计算机词性自动标注的一个“瓶颈”。尽管信息处理专家运用了规则排歧、统计概率排歧或者两者结合起来等多种方法进行排歧,但到目前为止,还没有一种方法、一种系统能够彻底解决这个问题。

二、短语、句子的结构分析

由于汉语缺乏形态。所以。语序和虚词成了汉语中表示语法的主要手段。有些短语、句子的结构不好理解,需要形式和意义结合起来分析。例如:

A组:a。陕西+甘肃+宁夏 (“陕西+甘肃+宁夏”三者为联合关系)

b。中国+(北京+陕西)(“中国”与“北京陕西”是偏正关系。“北京”与“陕西”是联合关系)

C。中国(陕西(西安))(“中国”与“陕西西安”是偏正关系,“陕西”与“西安”也是偏正关系)这一组中的abe三个短语对人来说,都很容易分清楚,但计算机目前还很难区分,要让计算机分辨清楚,就得把三个处所名词组合在一起构成a类、b类、e类不同关系的条件与规则研究清楚,并将这些条件与规则加以形式化输入到计算机内。

B组:开始讨论(述宾关系)分析研究(联合关系)研究结束(主谓关系)

取下来(述补关系) 看完再说(连谓关系) 叫他回来(兼语关系)

生产管理(定中关系) 讽刺说(状中关系) 介绍写(不构成合法的句法关系)

这组是现代汉语里“动词性词语+动词性词语”构成的种种不同的结构关系,对人来说,通过讲解大致可以分辨,可是让计算机要分清楚,就非常难,因为我们至今还没有总结出“动词性词语+动词性词语”构成各种不同句法关系的具体规则。换句话说,“动词性词语+动词性词语”在什么条件下一定构成合法的什么句法关系,能构成什么样不同的句法关系,我们至今还说不清楚。

C组:天气好――好天气(主谓――偏正)很好――好得很(偏正――述补)

来人了。――人来了。(述宾――主谓)

一张票三元钱。――三元钱一张票。(主谓――主谓)这一组都是由于语序的不同而形成的结构和意义都不同的短语和句子。这些结构对人而言,稍加学习就可以理解,但这些给计算机理解意思增加了难度。需要人们把这些语序的变化形成的不同的结构概括出规律来,再用形式化的方式描述出来。输入到计算机里。

三、歧义现象

现代汉语短语结构的歧义是进行汉语句法分析的一大障碍。“句处理”要解决的核心问题是排歧问题,计算机面对的歧义,不只是我们人所能感觉到的诸如下面这样一些句子的歧义现象:

(1)他正在输血。(他正给病人输血。/他病了,正输血。)

(2)看望的是病人。(你看望的那个人是病人。/看望你的那个人是病人。)

(3)我们急需进口产品。(我们急需进口的产品。/我们急需从国外进口产品。)

某些在人看来不存在歧义的句子计算机会认为有歧义。例如:

(4)a他被警察叫去罚了一百块钱。

b他被警察叫去写了一份检查。例(4)a句和b句,在人的眼里结构是不一样的。a句“被警察”这个介词结构一直管到底。全句意思是“他被警察叫去,他被警察罚了一百块钱”:而b句“被警察”这个介词结构只 管到“叫去”,管不着“写了一份检查”。可是,计算机分辨不清楚。要让计算机分辨清楚,我们就得将“PP+VPI+VP2”(PP代表介词结构,VP1和VP2分别代表紧挨着的不同的动词性词语)这种结构中的PP对后面动词性词语管辖的范围及其条件与规则进行充分、准确的描写,并加以形式化,“交给”计算机。而这一类现象与规则我们过去根本就没有考虑过,更不用说研究了。

其实以上所举的例子都存在歧义问题,因此,也可以这么说,“句处理”要解决的核心问题是排歧问题。

中文信息“句处理”的研究工作,上个世纪80年代就开始了,最早进行“句处理”研究工作就是基于规则展开的,但上个世纪90年代初,基于规则的“句处理”研究工作遇到了重重困难与难关,主要是语言学家所提供的语言规则远远不能满足信息处理的需要。目前,为了解决好中文信息处理中的“句处理”难题,出现了一个竞相研究、竞相发展的局面。对于句处理,提出的各种策略和途径,归纳起来。主要有基于规则和基于统计这两种策略。基于规则的研究者,一般求诸专家的理性知识,由人来对语言知识进行抽象:基于统计者,一般求助于计算机对大规模语料库真实文本的统计分析,由计算机来抽象出语言知识。各种策略和途径,目前,我们还很难说哪一种是唯一正确的。各种策略和途径,表面看不同,其实,最终都需要依赖可靠的汉语知识来驱动计算机正确处理自然语言(汉语)。因此,“无论是比较传统的基于规则的处理策略,还是90年代以来方兴未艾的基于统计的方法,在对语言知识的需求这一点上实际上都是共同的。所不同者,走规则路线的研究者一般求诸专家的理性知识,由人来对语言知识进行抽象(比如以带有合一条件的规则形式给出)。而走统计路线的研究者一般求助于计算机对大规模的语料库的统计分析,由计算机来抽象出语言知识(比如以一定的数据结构记录的统计结果等)。两种路线孰优孰劣,不能笼统判断,只能跟具体的应用目标结合起来,由实践结果来评价。”目前,越来越多的学者提倡把两种方法结合起来使用。因此,相信在不久的将来,我们会攻克难关,实现计算机对自然语言的处理与理解的目标,使中文信息处理技术处于世界领先地位。

参考文献:

1。兰宾汉、邢向东:现代汉语(下册)[M]。北京:中华书局,,48。

2。亢世勇:面向信息处理的现代汉语语法研究[M]。上海:上海辞书出版社,2004,177。

3。陆俭明:现代汉语语法研究教程(第三版),[M]。北京:北京大学出版社。,51。

4。詹卫东:面向中文信息处理的现代汉语短语结构规则研究[M]。北京:清华大学出版社,,2。

篇2:中文信息处理

基于中文信息处理的现代汉语三音词研究

近年来,汉语中三音节词有日益增多的趋势.三音节组合在现代汉语词汇系统中占有越发重要的地位.本文从中文信息处理的角度,对三音词的`词类分布、结构模式分布,“单字词缀化”等多方面进行深入分析和研究.

作 者:占勇 杨爱姣 作者单位:深圳大学,文学院,广东,深圳,518060刊 名:河南理工大学学报(社会科学版)英文刊名:JOURNAL OF HENAN POLYTECHNIC UNIVERSITY(SOCIAL SCIENCES)年,卷(期):10(4)分类号:H401关键词:三音词 词类 模式

篇3:巧用R进行中文文本信息处理

1 安装和加载附加程序包

R和其他商业化的计算系统非常不一样的地方在于,有无数的人在为R添加他们认为有应用价值的模块(称为“packages”或程序包)。而这些软件包的安装也简单到的不能再简单:不需要复杂的依赖关系,不要编译、make等,只需要将package解压后的目录拷贝到library目录下即可。

不过,R提供了更为方便的一体化搜索、安装附加包的方法:

在R的“程序包”菜单中,有4个命令:

(1)设定CRAN镜像

(2)选择软件库

(3)安装程序包

(4)更新程序包

其中第一个命令是要你选择通过哪个CRAN的镜像服务器(mirror)来查找当前可用的R软件包。CRAN是“Comprehensive R Archive Network”的缩写,意为“R相关档案大全网”,汇集了所有常用的软件包及相关文档。可以选择一个距离自己的工作地点比较近的镜像服务器,例如“China(Bejing 1)”,这样后续的操作就是和这个服务器联网进行的。

然后使用第二个菜单“选择软件库”,选择你要安装的程序包所在的“库”。一般来说,常用的包都在CPAN和CPAN extra库中,但如果是学生物的,可能会用到其他的库,例如BioC包含超过500个用于基因数据处理的包,详情参见文献[2]。

命令3打开一个列出所有可用软件包的窗口,从中可以选择要安装的包。对于文本的序列模式挖掘来说,需要的包是arulesSequence,系统会自动下载和安装该包以及相关arules包。

需要注意的是,“安装”和“加载”包不是一回事。安装以后还需要在菜单中加载已经安装的包,才能在R中使用该包提供的函数。

一旦程序包安装后,每次使用的时候,可以通过命令:

library(包名)

来加载它。例如:

加载序列模式挖掘包arulesSequences。可以看到系统提示:

说明arulesSequences包依赖于arules、Matrix、lattice3个包,系统自动加载了它们。

2 从文本文件中读取中文数据

R包含多个read函数(例如read.csv,read.delim等),用于从文本文件中读取数据。但是,包含特殊中文字符(例如繁体字)的文本文件往往使用UTF-8编码保存,这样的文件不能被R正确读取。解决方法是:

(1)CSV数据文件使用ANSI编码保存,但是在读入的时候使用GBK编码,否则不能显示汉字。(使用latin1也可以读出,但显示乱码;使用utf8不能读出。)

例子:read.delim("D:/my.csv",sep=',',header=F,fileEn-coding='GBK')

(2)数据文件使用Unicode保存。这里只说在Windows系统下的处理:

Windows记事本可以保存为3种格式,其中:“Unicode”的文本文件,在R中读入的时候,需要使用fileEncoding="UTF-16LE";使用“Unicode big endian”格式保存的,需要使用fileEncoding="UCS-2"参数来读取;而使用“UTF-8”格式保存的文件,则可能导致问题(在R手册中关于read.table的最后部分,也提到了这个问题)。

3 从MySQL数据库读入数据到R

同样地,如果需要从数据库中读取数据(现在直接从文件中读取数据的机会越来越少了),那么需要使用RODBC[4]包。按照上面第1节的方法可以安装这个包,或直接使用命令:

来安装该包。

当然,使用该包的前提是你的计算机上面已经安装了MySQL的ODBC驱动程序。如果没有的话,可以到文献[3]下载。

第一次使用和数据库连接,需要建立一个“数据源”;我们按下面方法来进行:

在R命令行,键入:

ch<-odbcConnect("");

由于没有指定函数odbcConnect()的参数,系统会提示您新建一个ODBC数据源并使用该数据源连接数据。数据源可以是用户数据源也可以是机器数据源,这里就不详述了。

如果你已经建了一个一个名为“mylocaldb”的DSN(数据源名称),则可以使用该数据源的名称作为参数来建立连接:

建立连接后,就可以使用SQL语句来获取数据了,例如:

上述语句将从sinfo表中获取10行数据,以data.frame格式放入sinfo变量中。

但是,如果MySQL中存放的是中文数据的时候,则上述命名读数据时要么出错,要么乱码。那么,如何解决R读MySQL中文数据的乱码问题呢?

经过反复测试,发现可以按如下步骤进行:

(1)为了能够兼容包含有繁体汉字和异体字等的大字符集,数据库要设置成为UTF-8编码的。即指定缺省字符集,例如:

上面的DEFAULT CHARSET=utf8指定使用UTF-8作为默认编码。

(2)在Windows的“管理工具”中,设置“ODBC”数据源。注意不要设置“Details”选项中的Character Set。

(3)在R中,通过DBMSencoding参数指定数据库的编码:

(4)然后就可以在R中进行查询了:例如:

4 文本信息处理

用于文本挖掘和处理的软件包比较多,以序列模式挖掘为例,使用arulesSequnces包,演示如何对文本材料库进行处理。

(1)首先将道藏目录的CSV数据[5]保存到一个文本文件dao.csv中,并导入到MySQL数据库中备查。

(2)在R中,对dao.csv的数据进行初步的统计:

则输出简要的统计信息经格式整理后如表1所示。

(3)通过PHP将目录数据格式化成如下形式,保存到title.csv中。说明:所有目录的标题被按单字分隔开,并在前面加上序列编号和事件号(即sequenceID和eventID,这是cSPADE挖掘算法所要求的)。

0,1,靈,寶,無,量,度,人,上,品,妙,經

1,1,元,始,無,量,度,人,上,品,妙,經,直,音

2,1,元,始,說,先,天,道,德,經,註,解

3,1,無,上,內,秘,真,藏,經

(4)在R中读入title.csv数据,使用arulesSequences包的read_baskets函数:

上面的sep参数指定数据分隔符,info参数指定前两列数据项分别为sequenceID和eventID。

使用下面命令可以查看读入的内容:

其显示形式如表2所示。

(5)调用cSPADE算法:

上面调用中在parameter参数中使用support命名参数指定最小支持度为0.1。然后查看一下计算结果:

as(z,“data.frame”);

将结果排序后如表3所示。

注意:如果支持度设的比较高,不能找到有效的关联规则,则可能会出现莫名其妙的错误,例如提示:

system invocation failed

如果cSPADE出现这种错误,请试试将支持度降低然后重新计算。

5 结语

通过使用arulesSequences包计算通过MySQL、PHP、CSV文本文件等中间处理后的汉字文本数据的序列模式,讲述在处理汉字时需要注意到各项技巧性事项,特别是在不同的系统中传递数据时的技术方法。

摘要:以统计道藏目录的中文词频为例,讲述使用R处理Unicode中文的相关技巧和注意事项。

关键词:文本挖掘,R,中文,arulesSequences

参考文献

[1]Robert Gentleman and Ross Ihaka,et al.The R Project forstatistical computing[OL/EB].http://www.r-project.org/.

[2]Bioconductor.Open Source Software for Bioinformatics[OL/EB].http://www.bioconductor.org/.

[3]Oracle Corporation.MySQL[OL/EB].http://dev.mysql.com/downloads/connector/odbc/.

[4]Brian Ripley,Michael Lapsley.Package'RODBC'[OL/EB].CRAN 2012,pp.6.

篇4:中文信息处理与汉字表征码

中国空空导弹研究院高级工程师华兴初认为,这些难题是方块中文字独有的、不可避免的固有技术问题,不必大惊小怪。凭中国现有技术水平,解决以上问题并无难度可言,是人们思想上千百年根深蒂固的“中文难”的阴霾,影响、阻碍了中文信息处理技术前进的步伐。

退休后的华兴初倾全力于解决中文信息处理难题上,经十余年艰苦努力,他在错综复杂的矛盾中,终于得出了中文信息处理技术的主要矛盾是民族化、大众化、规范化、国际化,而解决“四化”问题的关键在于编码的结论。也就是说,中文信息处理技术所有问题都可以归结为“四化”问题,而四个化的问题都可以用编码来解决,编码是所有矛盾的主要方面。根据这一理论,华兴初创造出了一种独特的汉字键盘输入法,并以“汉字表征码、编码方法与键盘”为名申报了国家发明专利,并获专利技术交易会特别金奖。可以预期,这项崭新的技术,将以其独特的理论、卓越的性能,开启中文信息处理的全新时代。

背景复杂 要求高远

经华兴初研究发现,中文信息处理一直存在六个问题:第一,中文信息处理没有民族特色,汉字还原率低,加上人们忽视汉字的排序功能,使得中文难学不仅得不到缓解,反而又增加了汉字信息处理难题。把用于教人识字的汉语拼音用来进行汉字信息处理的做法,没有产生预期的对汉语基础教育事业的发展及汉语走向世界的促进作用,全世界只有很少的人能掌握汉语拼音。

第二,中文信息处理技术的难度大,门槛高,别说是小孩,就连大学生也不能普遍接受,而至于外国人,那就更无可适从了。中文信息处理技术及其产品基本上只占领了国内一些具有汉语拼音条件的地方、单位与部门,国内市场正是因其自身的原因受到了限制,手机芯片知识产权92%在外国企业手中。国际市场更难拓展,中文的信息处理技术产业自然也就无力继续对国民经济形成明显的拉动作用。

第三,到目前为止,几千个有关中文信息处理的专利个个远离“四化”,中文计算机输入技术仍然处于低级无序状态,无法统一规范,直接阻碍了我国语言文字工作的信息化以及中文信息处理领域一切工作的规范化进程。

第四,汉字信息压缩技术还没有使中文信息的输出问题彻底解决,看不到中文字能像英文那样随意进、出电脑的可能性。这一问题的存在严重地制约着整个中文信息处理技术向现代化、国际化前进的步伐。

第五,英文不需专门建个字库,可我们却是建不完的字库,说明中文信息处理落后到何等地步。

第六,中文信息处理技术从无到有,一直处于探索之中,理论的缺失和错误是产生各种问题的主因,纯技术的“万码奔腾”式的研究方法反而使问题的解决离“四化”越来越远,主要理论错误是:

1.中文信息处理技术定位不当,人们没有认清它必须与语言文字学和计算机工程学既密切结合却又互相区别的特点及必须赋于面向全球大众的特点,使中文信息处理技术始终远离全球最大的用户群。

2.盲目渲染汉字的笔画,不能历史地、客观地、辩证地、科学地认识部件,把笔画和部件在中文信息处理技术中的地位完全搞了个颠倒。

3.对编码的重要性没有认识,使中文信息处理技术长期走弯路,出现技术倒退。

4.对中文信息处理这样一个错综复杂的系统工程,不用解决系统工程的办法分析与解决所遇到的问题,讳疾忌医,对创新理论与技术叶公好龙,甚至错误打压。阻碍和延误了中文信息处理技术的发展进程约20年的大好时光。

5.滥用智能技术有损中华文化的神圣与尊严,有碍中国国际地位的提升。

技术先进 方法简单

中文信息处理与汉字表征码从理论上和技术上科学、辩证地彻底解决了长期以来困扰中文信息处理领域的诸多弊端与问题。

首先,“表征码”把中文的部件按外形特征分类。它们绝大多数与我们天天见面因而是为人熟知的600多个部件,使人能在浩如烟海的数十万个汉字中见了任何一个字都不陌生,有利于降低学习难度,提高学习兴趣。

其次,“表征码”又把部件分成26个类型,并与26个键盘字母在音、形、义三方面相符。使中文信息处理达到了犹如英文一样的优异性能。因方块字出现的各种问题就此顺理成章地迎刃而解。

这样的汉字信息输入技术使中文信息处理变得只要像英文要背26个大、小写字母那样理解、背熟26个表征符就能让世界上每个大约9岁以上视力、智力正常的人都能学会进行中文信息处理,如同不懂英文的人打英文字母一样。

中文信息处理有重码字,怎么能说中文赶超英文?因为中文信息处理码长只取4位,而英文单词一半以上在8个字母以上。消灭重码,并不很难,无必要盲目追求,只要满足信息处理质量的需要即可。

为了提高信息处理质量,表征码的键盘输入技术,只要几条一听就懂的规则,就能达到见字就查字典,见字就敲键盘进行中文信息处理的效果。

功能卓著 涵盖极广

值得一提的是,中文信息处理与汉字表征码在众多方面都能体现出超越性的功能,以及极度完美的技术链接。首先,“表征码”具备中文排序和信息处理两大功能,而且都超过英文,足以扛起中文走向世界的重任。其次,“表征码”将部件形状、部件外形特征符号(表征符)、键盘字母三者在音、形、义三方面直接进行对应,使汉字能够见字直接翻字典;见字直接敲键盘进行中文信息处理,速度远比英文快;见字就能正确地、迅速地确定任一个汉字在规范化的字库,以及计算机内部码表中的位置。最后,中文信息处理技术的核心是民族化,而民族化的核心是编码、编码的核心是汉字的部件、部件的核心是它们的外形特征。这五个核心环环相扣,就能确保汉字表征码成为名副其实的民族化、大众化、规范化、国际化的编码,是真正属于汉字自已的编码。汉字表征码技术能确保中文信息处理能够涵盖古、今、中、外、繁、简所有汉字;所有视力、智力正常的人都能学会并掌握;涵盖所有汉字信息的应用与管理领域;尚未发现以往所有汉字编码存在的缺点。

影响深远 意义重大

中文信息处理与汉字表征码的发明,破解了千百年中文的种种难题。具备了在全世界推广应用的优越条件。

该项专利技术不仅可以广泛应用于IT行业、计算机、电子字典的键盘技术、中文信息的查、检、管理系统等众多领域,还可打破我国手机芯片知识产权基本由外国掌控的局面,对我国手机行业的发展具有较强的推动作用。该项专利技术的出现,不仅市场前景可以遍及全世界,可节约国家巨额不必要的投资,所产生的经济效益足以再一次拉动我国GDP的明显增长。还能实现中华文化向国际化的大步跨越,大力提升中国的国际地位,加速中文成为又一个国际化的文字与语言的进程。

篇5:论旅游翻译中文化差异的处理

(一)增添

增添是指为了使外国游客更好地理解某些字、词、名而增加一些相关资料,对旅游资料中的一些人名、地名、朝代、历史事件以及典故等做出背景资料的增加和说明。

例如“林边有一个洞,叫白龙洞。传说《白蛇传》的白娘子曾经在这里修炼。”译为“Near the forest is the WhiteDragon Cave which is said to be the very place where LadyWhite, the legendary heroine of The Story of the WhiteSnake, cultivated herself according to Buddhist doctrine.”白娘子是何许人也?她为何在此修炼?若不加以说明,游客实难理解。

再如“元宵节那天,大红灯笼高高挂。”译为“Duringthe Yuanxiao Festival, also caUed Lantern Festival, whichfalls on the 15th day of the first lunar month, red lanterns(Lantem Festival exhibition began in the Han Dynasty, about2,000 years ago. some people believe its origin to be relatedto Buddhism) can be seen everywhere.”这份旅游文本英译文中对“元宵节”和“灯笼”的补充解释,便于外国游客对元宵节有更为透彻的了解。

增添还可采用音译和意译相结合的方式,这种方式常用于地名和景点名的翻译。例如“第三个殿是永佑殿,原是雍正皇帝为皇子时的起居之所”译为“The third mainhallis called Yongyoudian, or the Hall of Etemal Blessing. Itused to be the bedroom of Emperor Yongzheng when he wasstill a prince.”音译让游客了解该地名的汉语发音,意译则形象生动,加深了游客对该地名含义及来源的理解。

在采用增添这种策略时译者必须遵循的原则是:所补充的内容必须是十分必要的,而且措辞也应简练,切不可喧宾夺主。

(二)删减

在旅游文本中大量隽句的反复引用使得原文更为流畅和充满感情,但如果直接翻译为英语,则难免有多余之嫌。因为在对风景的描述中,大量的描绘没有实际上的意义,仅仅是为了增强语言的节奏或增加感情等,这时我们就要运用删减这一翻译策略,对中文文本进行合理加工,把原文翻译成简明清新的英语。

例如“(黄山)巨松高数丈,小松不盈尺,或耸立挺拔,似擎天巨人;或凌空倒挂,似雄鹰展翅;或虬根盘结,如蛟龙人海……”译为“Pines on the mountain cling to the rocksurface instead of taking roots in soil. The ancient pines infantastic shapes rise high into the sky, or hung upside down.”原文的描述用词讲究,给中文读者很大的想象空间。译文删减了原文的排比句式和四字词语的叠用,选词朴实直接。少了渲染,却是忠于原文,读者易于接受,事半功倍。

再如阳朔兴坪的一段导游文本“这些山峰,连同山上绿竹翠柳,岸边的村民农舍,时而化入天际,真是‘果然佳胜在兴坪’。”译为“These hills and the green bamboos andwillows and farmhouses merge with their reflections in theriver and lead visitors to a dreamy world.”中文文本的最后一句“真是‘果然佳胜在兴坪”,是对前面描绘的烘托,而译成英语则显多余,因前几句已细腻地描绘了兴坪的佳境,译成“dreamy world”则能起到引人人胜的作用,且英语翻译读起来自然、流畅。

(三)改写

西方人的思维方式是直线式,多采用演绎推理;而中国人是螺旋式思维,多采用归纳推理。在展开一个话题时,汉语往往迂回曲折,先分说,再总括,多用掉尾句;而英语则开门见山,先总括,再分说,多用松散句。翻译时有必要对原文的结构加以修改,使其与西方读者或游客的习惯相吻合。

例如“在四川西部,有一处美妙的去处。它背倚岷山主峰雪宝顶,树木苍翠,花香袭人,鸟语婉转,流水潺潺。这就是松潘县的黄龙。”译为“One of Sichuan’s finestscenic spots is Huanglong (Yellow Dragon), which lies inSongpan County just beneath Xuebao, the main peak of theMinshan Mountain. Its lush green forests, filled with fragrantflowers, buhbling streams, and songbirds, are rich inhistorical interest as well as natural beauty.”译文用两个句子改写了原文,并且将“松潘县的黄龙”放在了句首,这样更符合英语的写作方式,也更符合西方游客的思维习惯。

另一种改写是关于历史古迹的资料,常会出现古代纪年、古地名、古官职,应改写为公历、现地名、现职务,否则会令外国游客迷惑不解。例如“战国初年,诸侯割据,各霸一方”,这句话中有古年代、古官职各一个,可以改写成“At the beginning of penod of Warring States (475BC-221BC), the dukes and princes crowned山emselves kingsand carved up the country.”

(四)解释

解释是指增加的部分是对字、词、句的字面意思加以解释。例如“这是定陵,是朱翊钧和皇后孝端和孝靖的寝陵。”若译为“This is Dingling,山e tomh of Zhu Yijun and hisempresses,Xiaoduan and xiaojing.”外国游客恐怕很难理解这句话的意思。若加上解释,译为“This is the tomh ofthe thirteenth emperor of Ming Dynasty、Vhere he was buriedwith his two empresses.”这样游客一听就十分明白。

再如我国云南傣族的“泼水节”以泼水的方式祈求快乐祥和。若只译作“Water Sprinkling Festival”,外国游客只能体会到相互泼水的意思,对于节日的由来、意义不甚了解。如果译成“Water Sprinkling Festival-a big festivalfor the Dai nationality to wish everone happiness bysplashing water to one another.”对于特殊的民族风情稍加解释,这样外国游客理解中国风俗文化就会更深刻全面。

五、结语

篇6:汉英习语翻译中文化因素的处理

最新200份英语专业全英原创毕业论文,都是近期写作

8英国历险小说《所罗门王的宝藏》 比较分析《野草在歌唱》与《倾城之恋》中女性的爱情婚姻观 英汉习语中隐喻的民族性及其翻译策略 An Analysis of the Problems on Chinese Early Childhood Education 矛盾的女性意识:从《傲慢与偏见》看简•奥斯汀的婚恋观 艺术与现实之间的冲突--解读毛姆的《月亮和六便士》 梭罗的《瓦尔登湖》和道家思想在自然观上的比较 Yellow Peril–the Image of Fu Manchu in the West 从语用角度和文化角度浅谈隐喻的翻译论应变能力在同声传译中的应用中西方文化中家庭观念差异研究——以电影《推手》为例法律语言及其翻译研究高中英语写作前口语活动设计与实施建议用陌生化理论阐述《红色手推车》的悲剧色彩浅析短篇小说《我不再爱你》的荒诞性论英语俚语的汉译—以奈达的功能对等理论为指导从惩罚角度看中美育儿观经贸英语中的缩略语现象及其应用论委婉语与国际商务谈判从归化与异化角度浅析《毛泽东选集》英译本中文化负载词的翻译官方语言中的中国英语分析--从目标人群接受性角度谈起从电影《弱点》看美国的家庭教育A Study on the Game Teaching Strategy for English Young Learns《游泳者》中的艺术特色论散文翻译中的风格再现——以朱纯深、张培基英译《匆匆》为例从功能对等理论看汉语文化负载词的英译《了不起的盖茨比》中色彩的象征意义中英礼貌用语差异浅谈体态语在小学英语教学中的作用Analysis of Love Tragedy in The Apple Tree in Light of Realism

英语中法语外来词对英国文化的影响

解读《哈利•波特》中纳西莎•马尔福的形象

浅析焦虑对英语专业学生英语口语的影响

On C-E Translation of Company Profiles from the Perspective of Functional Translation Theory

《海狼》主人公汉弗莱•韦登成长新论

茶文化和咖啡文化

从绝望到适应——鲁滨逊在孤岛上的心理变化

欧亨利与马克吐温的讽刺对比——以短篇小说为例

The Comparison of the Two Main Characters in Daniel Defoe’s Roxana and Emily Zola’s Nana

The Poet’s Identity in Keats’s Six Odes

解析斯嘉丽的性格及其对现代社会女性的借鉴意义

谭恩美《灶神之妻》文化解读

英美小说《傲慢与偏见》和《飘》中的女性主体意识比较分析

A Contrastive Study of Politeness Principle in English and Chinese

论《了不起的盖茨比》中的象征手法

流行歌曲歌词中的英汉语码转换研究

孤独而坚强的灵魂--《被遗弃的韦瑟罗尔奶奶》中爱伦•韦瑟罗尔的性格分析 48 从依恋理论看《呼啸山庄》主人公希斯克利夫悲剧性格的形成49 礼貌原则在商务谈判中的应用

对《傲慢与偏见》中的婚姻观重新解读

“红”的中英对比及其翻译

Personality that Matters: A Psychological Analysis of the Misunderstanding between Elizabeth and Darcy

现代英语情歌中的隐语研究

Memory Theories and Their Applications to English Vocabulary Learning

透过好莱坞校园电影解析美国青少年的特点

浅谈汉英时间隐喻的文化异同

《人性的污点》中主要人物的悲剧命运与社会原因的分析

英汉否定形式的语用对比研究

隐转喻名名复合词的语义分析

元认知策略对英语写作的影响

通过分析《德伯家的苔丝》中主要人物形象分析哈代的宿命论思想 英语中源于希腊罗马神话主要神祇姓名词汇的认知探索 浅析乔治•奥威尔《一九八四》中的极权统治手段 爱伦坡侦探小说的特征与影响

试析《我知道笼中鸟为何歌唱》的成长主题

会话中性别差异的语用研究

浅析“苹果”广告中的文化因素

中国领导人讲话中中国特色词汇的汉英翻译

从现代主义角度分析《无名的裘德》中裘德的无根性

男权社会下康妮女性身份的诉求--D.H.劳伦斯《查泰莱夫人的情人》的研究 71 《雾都孤儿》中的童话模式解读

Conversational Humor in American Sitcoms——A Case Study of The Big Bang Theory 73 中西酒文化比较

海明威的冰山理论在《一个干净明亮的地方》中的应用

中餐菜名的英译与饮食文化传播

顺应理论视角下《红楼梦》中社交指示语的英译研究

《简爱》和《吕贝卡》中女权意识的对比 A New View of Feminism in The Mill on the Floss River 论“看,易,写”方法在旅游翻译中的应用 爱伦坡侦探小说中恐怖气氛的营造方法

The Narrative Strategies of O.Henry’s Short Stories

对林语堂的《吾国与吾民》几种中译本比较研究

解读艾丽斯•沃克《紫色》中的家庭

浅析《瑞普•凡•温克尔》中的浪漫主义

跨文化交际中的移情及其能力的培养 英语谚语重复修辞格的翻译 叶芝诗歌中的象征主义手法 用批评性语言分析中美主要矛盾

钱钟书翻译研究

《通天铁路》中超验主义与清教思想救赎观冲突之探析

《荒原》中死亡与复活的意象分析

从电影功夫字幕翻译谈文化负载词的翻译

《欲望号街车》中布兰奇的悲剧成因分析

爱米丽与祥林嫂悲剧的比较研究

从目的论看儿童文学翻译--兼评《小王子》中英译本

论黑暗中的光明在《八月之光》中的体现

外语学习焦虑与口语成绩的相关性研究

《麦田里的守望者》中霍尔顿从抗拒到妥协的精神之旅

对非英语专业大学生英语自主学习能力的调查

论多丽丝•莱辛小说《金色笔记》中的现代女性意识的体现

论女同性恋成长小说--简析珍妮特.温特森《橘子不是唯一的水果》

从《金色笔记》看多丽丝•莱辛的女性意识

狄金森、席慕蓉爱情诗中隐喻现象对比研究

从玛氏公司看英美文化对广告的影响

从生长环境看林黛玉与简爱的反抗性格之差异

A Study of Humor in Films and TV Series Subtitles and Its Translation

温和的反叛者——论《小妇人》中的女性群像

英汉“红色”与“黑色”词汇的对比研究

析《喧哗与骚动》的写作手法

功能对等理论透视下的影视片名翻译

从约翰•邓恩的“奇思妙喻”中透视他矛盾的情感观

从会话含义角度解读《老友记》的言语幽默效果

反思任务型教学在高中教学中的应用

美国梦的幻灭——论《推销员之死》

中式英语的成因及对策分析

《洛丽塔》—时间的悲剧

旅游宣传资料翻译中的语用因素

《布罗迪小姐的青春》中的人物冲突分析

论不同语境下广告语中双关语的翻译原则

小学任务型英语教学中的课堂游戏研究

Passion & Religion — A Comparison between The Scarlet Letter and The Thorn Birds 122 种族沟通的桥梁——对《宠儿》中两个丹芙的人物分析

极权主义下人性的扭曲—— 用福柯的空间理论解读乔治·奥威尔的《》

Chinese Translations of English Film Titles:A Perspective of Functional Equivalence 125 中西方在养老孝道方面的差异

On the Female Image in The Oval Portrait

论英语广告中隐喻的翻译

从莎翁作品透视伊丽莎白时期女性社会地位

A Study on the Role of Parents in Primary School English Learning

从《汤姆叔叔的小屋》看基督教对美国黑奴的精神救赎

文学课程中的文化导入

谈目的论视角下的商标翻译

论人文主义在《哈克贝利.费恩历险记》中的体现

论礼貌策略在商务信函写作中的运用

The Effects of Family Education on Personalities in Little Women

商务英语中的颜色词浅析

体态语在中美交际中的差异及原因

中西礼貌用语的语用对比研究

浅析美国嘻哈文化影响下的美国俚语

从生态批评的角度解读《查特莱夫人的情人》

从《马拉喀什》和《射象》看乔治•奥威尔散文的艺术风格

《哈利•波特》中斯内普的人物分析

论“迷惘的一代”告别“美国梦”——浅谈《永别了,武器》和《了不起的盖茨比》 144 解读奥斯丁小说《诺桑觉寺》对哥特传统的模仿与颠覆

视角转换理论在英文电影字幕中汉译的应用

A Cross-Cultural Study on Linguistic Taboo

从数字的联想意义研究中西文化的差异

On the Feminist Consciousness Reflected in Pride and Prejudice

英语广告语中隐喻的研究

对比评析《了不起的盖茨比》中尼克和盖茨比的梦想

151 对英汉基本颜色词翻译的跨文化研究

152 英汉颜色词文化内涵的异同分析

153 《红字》中海斯特性格分析

154 小说《鸡蛋的胜利》中扭曲的“美国梦”

155 How to Arouse the Students’Interests in English Learning

156 浅析《傲慢与偏见》中伊丽莎白和达西关系的转变

157 《榆树下的欲望》之农场意象--基于生态女性主义的分析

158 幻灭的美国梦:《夜色温柔》的象征意义解读

159 爵士时代美国东西部的差距在盖茨比的人生悲剧中所扮演的角色

160 The Influence of Westward Movement on American National Character

161 Eco-Critical Reading of The Call of the Wild

162 福克纳短篇小说《献给爱米莉的玫瑰》叙事技巧分析

163 A Study of the Characters and Their Influence on the Hero of The Catcher in the Rye 164 Jude the Obscure and Hardy’s World View

165 英语法律文本翻译原则

166 从“爱的习惯”看多丽丝•莱辛笔下的两性关系

167 中西幽默异同探析

168 A Reflection upon American Heroism Based on Reviews ofHollywood Movies

169 Whose Portrait Is This—Exploring Oscar Wilde’s Complex Personality

170 Bertha Is Jane:A Psychological Analysis of Charlotte Bronte’s Jane Eyre

171 《了不起的盖茨比》中象征主义的研究

172 Double Vision in Characterization in The Great Gatsby

173 美国校园俚语发展的促动因素看美国的自由精神

174 浅析《道林•格雷的画像》中的女性形象

175 《动物农场》中隐喻的应用及其政治讽刺作用

176 论旅游指南的翻译

177 中西文化差异在家庭教育中的体现

178 中英姓氏差异及其原因探究

179 The Environmental Influence on Emily Brontë and “Wuthering Heights”

180 案例教学法在英语口语教学中的应用

181 析《瑞普•凡•温克尔》三个译本的翻译策略

182 爱米莉•狄金森诗歌中的植物隐喻

183 从《一个干净明亮的地方》解析海明威的冰山理论

184 An Analysis of Marguerite’s Tragedy in The Lady of the Camellias

185 埃德娜: 一个孤独的女战士——解读凯特•肖邦的《觉醒》

186 浅析《警察与赞美诗》中欧•亨利的写作风格

187 Research on the Re-creation in the Translation of the Trademarks in Different Cultures 188 英汉习语中的文化差异及翻译研究

189 中美不同家庭教育观念对孩子语表达的影响--从个人主义与集体主义的角度分析 190 试析与地理环境有关的英语成语及其文化内涵

191 背诵在中学英语学习中的作用

192 功能对等理论指导下的广告翻译

193 Interpretations of Cultural Differences in Temporal Aspect by Comparing Lin Shu’s Translation of Uncle Tom’s Cabin with Later Translator’ Versions

194 An Analysis of Gothic Atmosphere in The Shining

195 解读《金色笔记》中的女性主义

196 从功能翻译理论的角度论中文菜单的英译

197 汉英习语翻译中文化因素的处理

198 浅析托妮·莫里森《宠儿》中人物的身份建构

199 论《太阳照常升起》中的象征主义

上一篇:五年级下册第二单元数学测试题下一篇:我家的好家风演讲稿