聚焦插入语

2024-04-09

聚焦插入语(精选3篇)

篇1:聚焦插入语

其结构是固定的,意思上的主语并不是句子的主语。

generally speaking 一般说来

talking of (speaking of) 说道

strictly speaking 严格的说

judging from 从…判断

all things considered 从整体来看

taking all things into consideration 全面看来

judging from his face, he must be ill. 从他的脸色看,他一定是病了。

generally speaking, dogs can run faster than pigs. 总的来说,狗比猪跑得快。 (speaking 并不是dogs 的动作)

篇2:插入语分类抽取研究方法探讨

从Web上抽取句子对齐的双语语料进行自然语言处理研究是最近的热点,而从插入语抽取双语翻译对是基于Web的双语对抽取研究的一个子任务,大部分研究是基于单语网页资源,如中英对齐任务,在中文网页中往往有大量的英文形式的插入语,把这些资料进行挖掘、整理,形成语料,而对于另一种形式的语料却一直被忽视,即不完全对齐的可比较双语语料,如下例双语翻译:

On November 17,2003,the Government will extend the certification service of Hong Kong Service Suppliers(HKSS)to all 18 services sectors under the Mainland and Hong Kong Closer Economic Partnership Arrangement(CEPA)so they can apply to the relevant Mainland examining authorities for preferential treatment under CEPA,a spokesman for the Trade and Industry Department(TID)said today.

工业贸易署工贸署发言人今日十一月十四日表示,政府将由十一月十七日起把香港服务提供者证明书审核服务扩展至内地与香港关於建立更紧密经贸关系的安排下称安排内全部十八个服务行业,以协助它们向内地有关审核机关申请安排的优惠待遇。

插入语(TID、HKSS、CEPA II)在Web上抽取出来的中文翻译中没有相应的表示,对于这一类的语料,在实验研究中,为了得到平行的双语语料,通常的做法是直接删除掉不对称的插入语,而要从网络上得到大规模完全对齐的带插入语的双语文本比较困难,那么,本文介绍一种实验方法,利用网页中双语翻译对的特点,补充这样的不完全对齐的语料,能极大满足完全对齐的双语语料的抽取需求,并且还可以通过实验从网络资源抽取得到最新的命名实体双语短语翻译对,这对机器翻译、跨语言信息检索、自动问答等系统的性能又有着重要的影响。

1 相关工作

文献[1]在大规模的中文网页上做了相应研究。他们采用统计判别模型Perceptron对候选翻译进行训练和识别,其优点是可以有效地融合多种特征。然而网页内容的复杂性影响了判别模型的效果,实验结果显示,他们抽取出来翻译对正确率虽然得到了提高,但质量不能令人满意。

文献[2,3]提出利用搜索引擎的返回结果来获取双语翻译知识,他们使用不同的方法构造查询词交给搜索引擎,在返回结果中,利用统计方法获得对应翻译。他们的方法可以获得较好的翻译,但是由于搜索引擎的限制,这种方法不易用于获取大规模双语翻译资源。文献[4,5]从句子对齐的双语语料库中训练双语命名实体之间的多特征的统计对齐模型,然后利用统计对齐模型进行双语翻译对的抽取。实验证明,他们的方法效果令人满意,然而高质量的双语平行语料库不太容易获取。文献[6]利用词间关系矩阵法从特定领域非平行语料中抽取双语词典,其中种子词的选择对抽取结果影响较大,抽取出来的双语词典的质量不高。

文献[7]在英文网页中抽取缩写词及其翻译项,他们采用了一个有辨别力的对齐模型,把缩写词识别看成是一个次序对齐问题,也就是在两个字符串之间(缩写词及其完整形式)寻找最有效对齐,他们采用了很多能直接表达是否能直接产生缩写词的特征,并结合最大熵方法,取得了较好的结果。

前人在双语语料上进行的研究都是基于对齐的双语文本,通过研究发现,许多不完全对齐的双语语料在不删除多余信息的基础上,增加其缺省的对齐部分,可以极大地提高语料的信息度和利用率,并且获得双语短语三元翻译对,包括去缩写词、英文翻译、中文翻译。因以英文形式出现的插入语在英文上下文中比在中文上下文中出现的要多,基于这一点,先在网页中抽取出句子对齐的可比较的平行语料库,再从英文片段中抽取插入语及其相应翻译项,然后利用平行语料的词对齐工具,找到插入语的中文翻译,或者在对应的中文翻译旁补充插入语注解。流程如图1所示。

2 插入语及其英文翻译的获取

2.1 插入语的识别

在网页或科技文摘中,我们能经常注意到,有时为了对命名实体或科技术语做进一步的说明,会在其旁边以插入语的形式给出一定程度的翻译。正常的,插入语可以用以下的形式表示:

这里,fj是插入语之前的文本,j表示词的位置。ei是插入语,i表示每个插入语词位置。

从WEB提取的插入语主要可以分为几类,如表1所示。

其中,缩写类型是主要的插入语形式,说明类型数量少不说,因其没有任何规律,本文先不考虑,混合类型可以看作是缩写类型的变型:缩写类型+单词形变。因此,接下来我们建立缩写对齐模型。

2.2 插入语的选择

对于句子X和缩写词Y,描述为(x1,x2,…,xL)与(y1,y2,…,yM),接着,定义映射a=(i,j)来表示句子X中的第i个字母对应于缩写词Y中的第j个字母。因此,空映射a=(0,j)表示缩写词Y中的j个字母并不是由X中的任何一个字母产生的;同理,空映射a=(i,0)表示句子中的第i个字母不产生任何缩写字母,我们定义a(x),a(y)表示映射的第一个和第二个元素,也就是说,当有a=(i,j)时,a(x),a(y)分别等价于i,j。最后,缩写对齐后的完整的映射为a=(a1,a2,…,aT),T表示对齐后的映射总数。如下例子:

对于插入语TID:

T的映射候选项为a=(1,1),(4,1),(17,1),(25,1),(29,1);

I的映射候选项为a=(12,2);

D的映射候选项为a=(7,3),(11,3),(14,3),(20,3)。

我们知道,对于缩写词T、I、D,正确的映射应该分别为a(4,1),a(12,2),a(20,3),因此,为了消除噪声,得到正确的映射,我们采用一些有效的规则分步得到所有形式的正确映射。

首先,我们定义候选缩写词,它必须满足以下条件:

1)长度在2到10个字母之间;

2)最多有2个词块组成;

3)至少包含一个大写字母。

在满足以上条件的基础上,在处理文本的过程中,要观察候选缩写词是否包含预先定义好的停用词。停用词表是由手工编撰,其生成是由于从Web获取的资源中,一部分插入语只作附加说明,而这一类的附加说明的形式又很简单,如:

只是进一步说明tomorrow就是Sunday。

对于这类产生噪声的插入语,我们通过把星期引入停用词,就可以减少语料的搜索空间。

原则上在同一个句子中,插入语前面的所有单词都是作为缩写词翻译项的候选项,但是,对于长句子而言,就势必加大了处理的量,因此,我们想要找出合理的缩写词的长度和它的对应翻译候选项最大长度之间的关系。

在对我们的语料进行统计后发现,在缩写词和其对应翻译项之间最多会有4个单词形成空映射,也就是这4个单词不会产生任何的缩写字母,基于这个发现,我们定义,对于长度比较短的缩写词(小于4个字母),其对应翻译项的单词最多不超过缩写词长度的两倍;对于比较长的缩写词(大于等于5个字母),其对应翻译项的单词数量不能超过缩写词长度和5的和。由此,得出下列式子:

定义最大偏移量,它是指缩写词到它的对应翻译项最大的距离,这个距离是翻译项的最后一个词到缩写词之间的单词数,在这个实验中,我们设定最大偏移量为5,因此,翻译项的最大搜索空间就为{max|X|+5}。

系统在开始搜索候选翻译项的时候,它应该满足以下条件:1)候选翻译项的第一个字母要和缩写词的第一个字母形成映射关系;2)候选翻译项是在一个句子中,不能跨句,跳句;3)候选翻译项的第一个词和最后一个词不为介词、BE动词、情态动词、连接词和代词,并且一些标点符号,如{,.?}等不包含在翻译项之中。

2.3 插入语的映射

经过以上的条件过滤后,已经大大地减少了各候选项的噪声,我们开始在候选缩写词和候选翻译项之间做映射,为了提高算法效率,我们采用自上而下的分析方法,把大问题细分,从细分后的小问题出发,分步走,逐步求解:

1)所有缩写词都是由翻译项单词的首字母映射而成,且大小写字母一致。

从缩写词的发展不难看出,缩写词最原始,最简单的形式就是只由单词首字母构成的字符串,我们先考虑大小写一致的情况,如之前的例句:

缩写词元素I和D的映射很明确,但T却和The,Trade两个单词都有映射关系,鉴于此,我们采用倒叙的对齐方式,从缩写词的最有一个字母和对应候选翻译项最后一个单词向前依次寻找映射关系,问题得到化简,经过实验发现,虽然模型简单,这一步的准确率和召回率非常高。

2)所有缩写词都是由翻译项单词的首字母映射而成。

这一步我们放宽大小写一致的限制条件,把翻译候选项的数量扩大,因为语料中有大量这样的例子存在:

当然,也有大小写混合的不规律形式:

面对这种形式,我们把所有的候选项同化,这样在映射时也会产生一些问题:

同化后,缩写词元素“o”并不知道映射到对应翻译项的哪个元素,幸运的时候,我们的目的是得到完整的对应翻译项即可,而我们确实能达到这一目的。

3)所有缩写词可以不是简单由翻译项单词的首字母映射而成。

这类缩写词模型比较复杂,如例子:

所有缩写词的元素可以分别从前面翻译项单词的词首、词中、词尾映射得到,初看来这种类型的语料很复杂,无章可循,但分析大量的此类例子后,我们发现一个很重要的特征:

(a)缩写词第一个元素一定从单词的首字母产生;

(b)这类缩写类型映射的顺序不变,即在缩写词中在前面的元素其映射也在其他映射的前面。

在Web上的缩写词还存在一些变型,主要揉合了其他元素(如单词的形变或转换),从而产生一些新兴的混合缩写词,如:

polycyclic aromatic hydrocarbons(PAHs);

the third phase of the Mainland and Hong Kong Closer Economic Partnership Arrangement(CEPA III)。

对于第一个例子中的PAHs,可以看作是PAH的复数形式,而且后接的“s”是以小写字母接到大写字母组成的字符串后面,所以处理起来相对容易;而第二个例子,就涉及到单词的转换,为了处理这类缩写词类型,就需要分析语料,建立单词转换表。

3 短语翻译对抽取

获得了插入语的对应英文翻译后,就要寻找英文翻译在双语语料中对应的中文翻译,在机器学习领域中,双语短语对的抽取都是基于词对齐的基础上来做的,同样,本文利用词对齐作为实验的基础。

双语之间的词对齐方法已经发展成熟,其中GIZA++已经发展成为绝大部分统计机器翻译的基石,在自然语言处理方面有着非常重要的地位。在对汉英双语处理过程中,可分为两个处理方向:从英文到中文;从中文到英文。利用GIZA++在两个方向上得出的实验数据进行对齐求交,也就是说,在一个中英文句对中,如果从英文到中文方向,(Fairmont)对齐(费尔蒙特),那么,从中文到英文方向,(费尔蒙特)对齐(Fairmont)的情况下我们才认为(费尔蒙特)和(Fairmont)互为翻译对,提高词对齐的性能。

从词对处理提高到短语对处理,机器翻译系统MOSE对一般性的短语对对齐提出了一种方法,以GIZA++的词对齐为基础,在对齐矩阵中延伸使其为对齐短语,但用这种方法处理本实验语料由于命名实体短语在词对齐中的效率不高,只能作为MOSE短语对齐结果中抽取的一般性短语的子串,如对于stoner avenue,在MOSE的结果中只包含在一个短语中:does this bus stop at stoner avenue,而不是stoner avenue单独作为独立的短语来为双语短语翻译对抽取服务,因此,我们在本实验不采用MOSE的方法。

中文短语的边界问题一直是自然语言处理的难点,由于本实验处理的是命名实体,本文尝试直接对中文语料进行命名实体识别。采用文献[12]的未切分中文文本的命名实体识别工具(Base NER)分析,此工具把命名实体分为(LOC,ORG,PER)三种类别,经过分析,被标注的中文短语与其对应英文句子中的翻译映射很少,一方面是由于我们处理的是能作为插入语的英文短语,属于比较特殊的一类,另一方面中英文命名实体判别标准有出入,在实验中进行映射的时候,不同的标准容易产生误差。

众所周知,中英文语言的特点差别很大,同时它们却有一个共同点,连续的英文单词组成的命名实体对应的中文命名实体也是连续的(包括单一或多个词组成),也就是说,英文命名实体短语和对应的中文命名实体短语映射关系是一对一的,那么,利用词对齐结果,取得英文翻译项对应中文位置,通过处理单个映射的中文位置,再得到对应中文翻译项的范围,也就得到了双语短语翻译对,这样有几个好处:

1)由于中英文语言本身的特性引起的词序不同可以不用考虑;

2)减轻由词对齐系统自身产生的误差。

因此,在本实验中,从插入语先确定对应英文翻译项,英文翻译项再根据词对齐的结果确定中文翻译项,而中文翻译项的范围是由对应英文翻译项每个单词对齐中文翻译的集合,这样还能解决词对齐系统的空映射问题,最后,由此确定插入语及其对应中文翻译。

4 实验结果

我们从网页上抽取了60万句对的不完全对齐的双语语料,其中,满足2.1节定义的插入语形式且为插入语删减的可比较双语句对有55198对。根据2.2节的方法,识别出的缩写词有10082句对,根据2.3节方法,满足对齐之后的缩写词共有6162句对(包括混合型缩写词),其中,缩写词的分布如表2所示。

由实验分析看出,传统形式的缩写词仍然占大多数,对于抽取的两类插入语类型,其实验结果如表3所示。

由实验结果分析得出,对于传统类缩写词,实验结果的准确率和召回率都比较高,因为传统类型的缩写词组成形式相对简单,而对于混合类型,转换表的构造有一定的局限性,性能受其影响。

为了量化短语翻译对的抽取,采用2W个句子对齐,并且分好词的英汉双语语料样本,对其做命名实体标注,首先用GIZA++做词对齐:3275个句子中共有4969个标记为命名实体(NNP)的英文单词,交叉对齐后从4491个NNP中排除了错误词585个,正确对齐为3906个,召回率基本没有变,词对齐的准确率能提高11.8%。

利用英文命名实体短语对的特征,抽取英文命名实体短语,共从语料中抽取了956个满足条件的英语短语,共包含英语单词2061个,在词对齐结果中有中文对应词映射的为1346个,短语对齐结果中有中文短语集映射的有914个,正确率为95.6%,包含英文单词1968个,也就是比词对齐的数量多出622个,极大地改善了词对齐中空映射的问题。

对于引言中的例子,中文可以处理成:

工业贸易署工贸署(TID)十一月十四日表示,政府将由十一月十七日起把香港服务提供者(HKSS)证明书服务香港关於建立更紧密经贸关系的安排(CEPA)下称安排内全部十八个服务行业,以协助它们向内地有关审核机关申请安排的优惠待遇。

由此补充对齐了双语语料,而且可以得到短语翻译三元对,如对于例句可以得到:

TID(the Trade and Industry Department,工业贸易署工贸署)

HKSS(Hong Kong Service Suppliers,香港服务提供者)

CEPA(Closer Economic Partnership Arrangement,更紧密经济关系的安排)

5 结论

本文从Web获取双语语料,探讨以插入语形式出现的双语翻译对抽取方法,不同于大多数同类方法,本文处理的是可比较的双语资源,首先在英文中查找插入语解决插入语的边界问题,再通过双语处理来获得双语命名实体翻译对,由此可以把可比较的双语语料补充转化为对齐的双语语料,在实验中,还可以得到命名实体短语翻译三元对,这对自然语言处理、机器翻译等都有着重要的作用。

摘要:命名实体、术语的翻译对自然语言处理,机器翻译性能的影响越来越得到重视,但是这些翻译很难从现有的翻译词典中获得充足的信息。提出了一种从网页中自动获取高质量命名实体短语翻译对的方法,首次探索了对双语文本中对齐缺失部分自动补充的方法。该方法利用网页双语翻译对的特点,使用统计判别模型,融合多种识别特征自动挖掘网站中存在的双语短语翻译三元对。实验结果表明,采用该模型能高效处理命名实体双语翻译对,正确率达到95.6%。

关键词:自然语言处理,中文信息处理,双语翻译对,命名实体短语,对齐补充

参考文献

[1]郭稷,吕雅娟,刘群.一种有效的基于Web的双语翻译对获取方法[J].中文信息学报,20082,2(6).

[2]Zhang Y,Vines P.Using the Web for Automated Translation Extraction in Cross2 Language Information Retrieval[C]//Proceedings of SIGIR 2004:162-169.

[3]Huang F,Zhang Y,Vogel S.Mining Key Phrase Translations from Web Corpora[C]//Proceedings of HL T2EMNLP 2005:483-490.

[4]Huang F,Vogel S,Waibel A.Automatic extraction of named entitytranslingual equivalence based on multi-feature cost minimization[C]//Proceedings of ACL 2003 workshop on Multilingual andmixed2language named entity recognition9,-16.

[5]Huang F,Vogel S.Improved Named Entity Translation and BilingualNamed Entity Extraction[C]//Proceedings of ICMI 2002,253-258.

[6]张永臣,孙乐,等.基于Web数据的特定领域双语词典抽取[J].中文信息学报,20062,0(2):16-23.

[7]Naoaki Okazaki,Sophia Ananiadou.A Discriminative Alignment Model for Abbreviation Recognition International Conference On Computation-al Linguistics Proceedings of the 22nd International Conference onComputational Linguistics 2008.

[8]Andrew Galen,Jianfeng Gao.Scalable training of L1-regularized log-linear models[C]//Proceedings of the 24th International Conferenceon Machine Learning(ICML 2007),2007:33-40.

[9]Blunsom Phil,Trevor Cohn.Discriminative word alignment with condi-tional random fields[C]//Proceedings of the 21st International Confer-ence on Computational Linguistics and the 44th annual meeting of theAssociation for Computational Linguistics(Coling-ACL 2006),2006:65-72.

[10]Jain Alpa,Silviu Cucerzan,Saliha Azzam.Acronym-expansion recog-nition and ranking on the web[C]//Proceedings of the IEEE Interna-tional Conference on Information Reuse and Integration(IRI 2007),2007:209-214.

[11]Shimbo Masashi,Kazuo Hara.A discriminative learning model for coordi-nate conjunctions[C]//Proceedings of the 2007 Joint Conference on Em-pirical Methods in Natural Language Processing and Computational NaturalLanguage Learning(EMNLP-CoNLL 2007),2007:610-619.

篇3:插入语浅析

一、现在分词短语作插入语

1. generally(frankly, honestly) speaking一般说来;(坦率,诚实)地说

Generally speaking, boys are more interested in sports than girls. 一般说来,男孩比女孩更喜欢运动。

Honestly speaking, he isnt fit for his office. 说实话,他不称职。

2. judging from (by) ...依……来判断

Judging from his accent, he must be from Guangdong. 从口音上判断,他准是广东人。

Judging by the noise, the race must have begun. 根据闹声判断,比赛一定已经开始了。

3. considering ...考虑到……;就……而论

He is strong considering his age. 就他的年龄而论,他可算得上是身体强壮。

4. talking of ...谈起……

Talking of fine arts, do you have any interest in painting?说起艺术,你对绘画有没有兴趣?

二、不定式作插入语

1. to tell (you) the truth说真的

To tell you the truth, I dont like the color at all. 说真的,我一点也不喜欢这种颜色。

2. to be sure当然;肯定;不成问题

He is young, to be sure, but very experienced. 他肯定还年轻,但已很有经验了。

3. to be honest (frank)老实说 (坦白地说)

To be honest(frank), I dont quite agree with you. 老实说(坦白地说),我不太同意你的意见。

4. to make things worse更糟糕的是……

To make things worse, her husband became ill. 更糟糕的是他的丈夫病了。

三、介词短语作插入语

1. in ones opinion (eyes)在某人看来

In my opinion, this plan is not reasonable. 在我看来,这个计划不合理。

2. by the way顺便问一句

By the way, where are you going?顺便问一句,你要去哪儿?

3. in other words换句话说

In other words, conditions are not yet ripe for it.换句话说,条件还没有成熟。

4. in a word总而言之

In a word, we shouldnt stop half way.总之,我们不能半途而废。

四、形容词 (短语) 作插入语

1. wonderful太棒了

Wonderful, our team has won again. 太好了,我们队又赢了。

2. true真的

True, you have done well.说真的,你干得不错。

3. worse than all (ever) 更糟糕的是

I felt very hungry. Worse than all, I took no money.我感到很饿,更糟糕的是,我没带钱。

4. strange to say 说来奇怪

Strange to say, she hasnt got my letter up to now. 说来奇怪,她到现在还没有收到我的信。

五、副词短语作插入语

1. happily / luckily for sb.对某人来说幸运的是……

Luckily for him, his stepmother was kind to him. 对他来说幸运的是他继母对他很好。

2. certainly 当然

Certainly, I wont accept such a foolish plan. 我当然不会采纳这样一个愚蠢的计划。

3. indeed 的确

You speak English quite fluently, indeed. 你的英语的确讲得很棒。

六、代词短语作插入语

1. all in all总的来说

All in all, her condition was greatly improved. 总的来说,她的情况有很大的好转。

2. all the same尽管如此;仍然

It was raining hard, but we got there in time all the same.那时下着大雨,但我们还是准时到达了那里。

3. all told 总共

His crew was reduced to twenty-four all told. 他的船员减少到总共只有二十四人。

七、短句作插入语

1. if I dare say我认为……

You shouldnt, if I dare say, do it like that. 我认为你不应该那样做。

2. if you like如果你喜欢的话

You may, if you like, keep the book.如果你喜欢的话可以保留这本书。

3. what is more而且;况且

He learns easily, and what is more, he remembers what he has learnt. 他学得很轻松,而且学过的东西全记得。

4. whats worse更糟糕的是……

What was worse, this wine was not at all suitable for drinking with a meal. 更为糟糕的是,这种酒根本不适合进餐时饮用。

5. I believe我相信

I believe, she is a kind girl. 我相信她是一个心地善良的姑娘。

6. that is to say也就是说

He will come on National Day, that is to say, October 1st.他国庆节要来,也就是说十月一号。

八、一般疑问句作插入语

在特殊疑问句中,常用do you think(believe, imagine, guess, suppose等)这类一般疑问句结构作插入语,这时,特殊疑问句要用陈述句语序。

1. Who do you think this man is?你认为这个人是谁?

2. What do you suppose she will do?你想她会做什么?

3. How much money did he say he spent in traveling abroad?他说他在国外旅行花了多少钱?

九、用标点符号引导插入语

1. He was (strange as it seems) an excellent sportsman. 他(尽管还显得十分离奇)是一个出色的运动员。

上一篇:玩脑筋急转弯可以有哪些游戏下一篇:路人,请放开我情感散文