《断章》: 翻译

世上是否存在与原文完全等价的翻译?

上面这个问题,恐怕难有定论。但毋庸置疑的是,“迷失东京 (《 Lost in Translation 》的 lost in translation 的译名)”的情况大量存在着,也给很多人都带来过困扰。例如,当年大唐高僧玄奘西行的根本诱因,就是经文翻译的不准确。

来源:ifanr

注:《断章》是一系列对物件和片段的思考,我们用它描绘科技与人文的犬牙交错。

《西游记》中,当唐僧师徒把三十五部有字真经从西天带回到长安后,他们就算是修成正果了;现实里,当玄奘把历经艰险取回的经像安置于慈恩寺大雁塔时,他只不过刚完成一项艰巨任务的开始部分。

这艰巨任务便是翻译佛经,包括重译已有的那些。

翻译上的缺失,让玄奘无法明了佛教中复杂而又严密的“唯识”理论。前人的译文大多属意译而非直译,更有指代不明、章节残缺等严重问题。如果不亲自到天竺去学习梵文的原著,就难以通晓经书《瑜伽师地论》的本意,于是便有了高僧伟大的西域之行。

东归后,为了建立中土的理论体系,严谨而系统的翻译工作成了玄奘的要务。据信,玄奘一生翻译佛经凡七十五部,共一千三百三十五卷,为中土译师之最。

不过,玄奘的译文,虽然被僧伽视为至宝而备加研习,在一般信徒中却流传不广。在玄奘所译的佛经中,通行于世的恰恰是最短的一部《般若波罗蜜多心经》,此经加标点符号才三百一十二字。更多在民间传诵的长篇经卷,采用的还是姚秦时鸠摩罗什的译本。

在丝绸之路上生活的鸠摩罗什通晓沿路各国语言、习俗,译作文质兼备。世人多把玄奘的译作称为新译,而把鸠摩罗什所译称为旧译。旧译之所以一直流行,主要是因为其更有文采。同一部经书,当代学者如胡适、陈寅恪等,都更推崇鸠摩罗什的译本,认为玄奘的译本过于晦涩难懂。

似乎,更严谨的翻译反倒不受欣赏。

有意思的是,与玄奘同为三藏法师的鸠摩罗什却并不喜欢自己的中文译作:“改梵为秦,失其藻蔚,虽得大意,殊隔文体,有似嚼饭与人,非徒失味,乃令呕哕也”。

对一门学问的门外汉来说,带有文学再创作性质的意译显然更容易让人接受;但对这门学问的专业人士来说,这种方法不过是失真度极高的一种读后仿写。旧译有教化信众之功,但尽力还原经文在语言上的原貌,却是玄奘还要再作新译的动力所在。

玄奘的直译与罗什的意译,应该说各有其不可替代的价值。术语上讲,前者是“话语内翻译”( intra-discourse translation )而后者是“跨话语翻译”( inter-discourse translation )。

鸠摩罗什所处的魏晋南北朝时代,东方还没有形成与西域对等的佛教僧团。

在此过渡期,进行语法、语义上严格对等的翻译没有任何意义,因为译出来也没有人能理解,译者只能先在文化层面上创造出对等的概念。这段时间内,如鸠摩罗什般跨东西方的僧人利用汉语已有的语素创造了大量新的词汇。最典型的例子就是过去、现在、未来这三个词,它们分别由基本语素“过”和“去”、“现”和“在”、“未”和“来”组成,每个词都隐藏着一个与其相对应的巴利词—— atīta 、 paccuppanna 、 anāgata 。

当大众开始接受这些新词所蕴含的新思想时,中国本土的僧侣阶层也同时形成。寻求跨越语言的学术一致性,求真求实,是僧侣们对翻译的进一步要求;新的译文为求严格的等价,使用了大量的术语、音译,诘屈聱牙在所不免。

翻译从来不是简单的符号转写,受众不同,译法就有区别。很多时候,好的翻译与准确的翻译并不是一码事。在引进西方现代科技与思想的翻译过程中,翻译家严复提出了信、达、雅的三个准则,可就在他自己的译作《天演论》中,达与雅也没能很好的共存。

《天演论》书名的直译当为《进化论与伦理学》,严复先生在翻译过程中删掉了重要的伦理学部分,对进化论部分也做了不少修改;在行文上,他采用的是桐城派的古文笔法,让叙事的论文变得与先秦散文一样。

凡此种种,使得《天演论》在已具备基本科学素养的现代中国人看来,很难说通达到哪里去。但这本书采用如此译法,无疑最符合当时士大夫们的口味,也更容易让他们理解,从而接受哪怕是一点点的改变。

雅重于达,翻译经常要承载比原文更多的东西。

瞿秋白曾指出:翻译“有一个很重要的作用,就是帮助我们创造出新的中国的现代言语”,这可以说是当年知识界的共识。鲁迅、陈独秀等学者所推动的白话文运动,与其说是推广口语化的运动,不如说是学习翻译体的运动。

正是在中国人普遍接受了西式的语法习惯和表达方式之后,各个西方学科的研究才能在中国真正开展起来;新的学者在掌握了基本的逻辑思维后,才能在各自学科的话语圈内与西方同侪进行对等的直译交流。

表面看上去,中文既古老又封闭,但翻译与翻译体对国人长期而又潜移默化地起着作用,这让中国人的思想变得比其他国家都要开放。这也不是没有代价,对翻译能力的过度重视,也直接导致应试英语、哑巴英语在中国横行。

如今,使用中文的地球物理学者,可以与来自伊朗的同行用简单的英语进行学术上的讨论,哪怕二人都不用英语作为母语,但学术背景能让他们达成共识;一个中国的软件工程师,即使上大学时四六级的成绩有些抱歉,也能随时跟进美国最新的编程技术;哪怕是没学过外语的江浙商人,借助粗糙的软件翻译,一样能在网上做起红火的外贸生意。

翻译不单带来了文化的传播,它还会在目标文化中创造出新的话语系统及社团,新的社团反过来又能掌握源文化中的话语体系。无论什么领域,在今天的中国都能找到可与西方进行对等沟通的群体,这些群体与西方的接触只需要进行话语内翻译。

同一话语圈内的翻译,才能尽量保持原文的本意。

当然,哪怕对等的群体存在共识,同领域内的直译也会经常辞不达意,要到达准确得花费巨大的劳动。计算机网络的时代,翻译的代价并没有减小多少。

以欧盟为例,欧洲国家虽然使用的都是字母文字,拥有相近的宗教、文化背景,但相互间涉及法律、外交、行政的翻译也还要由具有相关知识的专业翻译人员完成。

为了维持正常的文书流转,欧盟在笔译上的支出每年都超过了 11 亿欧元。其固定笔译人员多达 2500 人,文字翻译量一年超过 230 万页。既有文山必有会海,欧盟一年大小会议上万场, 27 个成员国的代表每场需要至少 60 名翻译人员进行同声传译,持有欧盟口译执照的“自由译员”则多达 3000 人。每年口译的开销也达到了笔译的 1/10 。

“车同轨,书同文”是需要付出战争的巨大代价的。与两次世界大战的成本相比,每年十几亿欧元的翻译花费似乎算不上什么,可这只是显性的开销;需要翻译这一事实,本身就是欧盟继续前进的一大障碍。

哪怕操着不同的语言,也要建起巴别塔。欧盟即要重视文化的多元化和语言多样性,又要加速一体化的进程。鱼与熊掌兼得的理想,不知道在世间能否实现?

 

从乐观的角度看,人类社会的很多理想,都通过技术的进步得到了实现。倘若计算机能进行准确无误的实时翻译,那欧盟的多语言也不是问题。

然而,长时间内,机器翻译也只能起到辅助的作用,段落级别的文本翻译,还得依靠合格的专业人士。事实上,受技术所限,现在的机器翻译非但不能用于翻译国际间重要会议的文本,反而要借助这些会议在翻译上的劳动成果。

以著名的谷歌翻译为例,从 2007 年起谷歌便转向了用纯统计方法进行机器翻译,为了提高统计算法的准确度,他们往数据库中导入了超过 2000 亿单词数据量的联合国会议的翻译资料。

基于统计的翻译方法,原理说起来也并不复杂,主要就是将待翻译的文本放入经过平行语料库训练的模型中进行比对,挑选出最相近的目标结果,调整语序,然后输出。数学上的依据主要是噪声信道模型。其基础贝叶兹公式,相信不少学过高数的人还能记得:

bayes

上面这个公式,说的无非是给定源句子 f 之后,倘若要拣出目标句子 e 的话,要首先看 e 中能找到多少与 f 的内在对应关系,然后还得看 e 在语料库中出现的频率。而内在对应关系,目前主要靠源与目标中相对应词汇的出现个数,是否对齐来判断。

统计翻译实用的前提就是要有一个极其庞大的平行语料库。

平行语料库,指的是文本中每一行的两个句子互为翻译的数据库。互译的语句要做到可信,非得来自专业翻译人员的实际工作不可,这本身就要从诸如联合国会议、欧盟会议等的草案、文书、章程中获得。现在的算法能做到的,不过是优化从平行语料库中找到句子的速度,本身不能做出创造性的翻译。

在人们使用机器翻译之初,有这样一个笑话。软件在将英语成语:

The spirit is willing, but the flesh is weak.

(心有余而力不足。)

翻译成俄语之后,成了这个意思:

The vodka is good, but the steak is lousy.

(伏特加很好,牛排却很烂。)

弄出这个笑话的翻译程序是否存在已不可考证,但在今天,倘若使用谷歌翻译将上述成语翻译成中文的话,得到的是这个句子:

精神是愿意,但肉体却软弱了。

这样的结果实在是不够文雅,而且也没有表达出重点,只能说是差强人意吧。

机器翻译中,除了基于统计的方法,另一种主要的方法是基于语言规则的。简单来说,此方法通过分析源句子的语法,将句子解析成有结构的语法树,然后通过字典查找,将语法树中的源单词转换成对应的目标单词,再构造出新的句子。

基于语言规则的方法难以处理真实世界中有意义的句子,很多时候词词都对,但整句就错。早在上世纪 60 年代,美国的“自然语言处理咨询委员会”就报告称,诸如语言规则等的处理方法,在用于自然语言翻译时实用价值有限。目前,此方法在一般的机器翻译中也只起到预处理的作用。

语言规则处理虽然难以对付自然语言,其价值也是无可估量的,它是计算机语言的编译技术的理论基础。

计算机语言的编译,倒是译文与原文完全等价的语言翻译。

虽然,计算机语言只是人造的,没有自然语言的地位。

无论是基础的 C 语言,还是面向对象的 C++ 、 Java 、 Object-C 语言,又或者是解释型的 PHP 、 Python 语言,所有计算机程序语言都能编译成同一段二进制的执行代码;而从同一段二级制代码中,选择不同的解析器,也能反编译出各自对应的高级程序语言,相互之间是严格等价的。计算机语言的编译过程,实际上就是语法规则处理的过程。

程序语言之所以能毫不失真地相互转译,是因为在语言类型上,它们都属于上下文无关语言。也就是说,在这些语言当中,文本内的语句之间都没有语义上的内在关联。

请把包给我递一下。

哪个?黄色的?

白的。不是这个,大的。谢谢。

不用。

这样的四个句子就是有关联的,上下文中隐含了指代的对象。

Hello, world!

If see this then check next line.

Return to the first line.

这样的三个句子,相互间就是上下文无关的,但单个句子依然能描述某个物体或表达某个动作。句子们组合起来,就能实现各种复杂的程序指令,渲染出你我能看到的页面。

上下文无关文法的具体定义是:

若字符串 G = (N, Σ, P, S) 的产生式规则都取如下的形式:V -> w,则称之为上下文无关的,其中 V∈N ,w∈(N∪Σ)*

每一本《编译原理》课程的教科书中都有上述定义,各种计算机语言的语句不过是标准定义式的某种等价转换,方便读写而已。

上下文无关语言的好处在于,计算机程序不需要“理解”这种语言,只需要执行转换即可;而对人类来说,人却能理解这种语言并编写出相应的句子。这种语言的表达能力让人能从更抽象的层面对机器码进行处理,从而减轻程序设计时的劳动。

机器之所以还不能完美地翻译,在于机器还不能“理解”人类所能理解的充满歧义的自然语言;与之相比,人类通过对语言的理解所构造出的上下文无关文法,在数学上等价于“后进先出的自动机”,本质上只是一种处理特殊问题的机器。

准确的翻译,还是得靠人的理解。

那么,究竟什么是理解?为何机器不能理解,为何只有人才有理解的能力?

或许,人的理解只是一种假象。

根据“生成转换语法”理论,人的语言能力本质上跟计算机的编译处理能力没有区别,只不过更加复杂罢了。事实上,语法规则处理、上下文无关文法,本身也就是“生成转换语法”有关的实际应用。

在“生成转换语法”学派的创始人诺姆·乔姆斯基看来,人生来就掌握一种先天的“普遍语法”。人们在说出或写出一句话时,不论具体的语言是什么,都不过是将这种“普遍语法”的深层结构转变成为表面的顺序;而所谓的理解,也不过是这种转变的反向过程。

经过五十多年的发展,乔姆斯基的理论已经形成了恢弘的体系,并对语言学、计算机科学的发展起到重要的指导作用,简单概括起来如下:

人类只有一种语言。现实中不同语言的存在,只不过是词汇与句法参数的不同;自然语言中有歧义现象,是因为语言功能要符合经济性的原则。

如果人类真的只有一种语言,理论上,我们必然能得到与原文完全等价的翻译;倘若我们能描述出这个“唯一”语言的结构,那自然能分解出语言处理的步骤,实现“完美的”机器翻译。

“人类只有一种语言”,绝不止是一种哲学意义上的感悟。

科学家们在对儿童习得语言的研究中发现,孩子们并不是机械地在学习语言。语言能力并不是通过灌输而获得的,处在完全不同的条件下的所有儿童,差不多都在伸缩性很小的同一年龄期学会讲话和理解。语言学家洪堡特认为,我们事实上并不能够真正地交给别人语言,而只能是呈现语言发展的一些条件。在这些条件下,语言会以其自身的方式在思维中同时得以发展。

人之初,性本善。性相近,习相远。

语言先于外界而存在。

从生物语言学的观点看,语言是一种自组织系统。它一方面由生物遗传所决定,同时又与外部环境不断进行信息交互;它不断完善,最终在动态中获得平衡。当我们揭开语言的基因遗传部分的奥秘后,通过构造模型,就能实现在全世界六千种语言间的等价翻译。

同时我们也将知道什么是人本身。

 




1 Comment

  • O.Z says:

    这个深奥了,太多社会学、史学、人类学和逻辑学的内容。其实就实际来说,即使是同语言间的信息互通也常有障碍,这个对于广告行业来说更是家常便饭——大家明明说的都是中文,可是谁却也都不明白对方在说什么——更重要的原因可能还是缺乏默契,以及心灵的无法互通。

    [ 回复此评论 ]

Have Your Say »

Required

Required, never published

无觅相关文章插件,快速提升流量