主流机器翻译系统(谷歌、百度、搜狗)对比测评(2018年4月)
你也许听过这样的论调:“人工智能将取代人工翻译”,这并不是噱头,事实上这一天的到来已经越来越近了。由此带来的好处是显而易见的,相比于寻求专业的人工翻译,更多的人将能享受到廉价且优质,便捷的翻译技术。这对于翻译从业人员来说或许不太友好。当然在今天机器翻译的水准还无法做到完全取代人工翻译,人们使用机器翻译时往往是作为一种辅助理解工具,除非是为了应付任务交差,否则没有人会将机器翻译的结果直接拿来正式使用吧。
这一天始终是要来了,如果你经常使用机器翻译并且留心观察的话,会惊奇地发现它们在近两年有了非常大的进步。2016年9月,谷歌发布了基于神经网络的智能翻译系统——GNMT(Google Neural Machine Translation),根据当时知乎上用户的使用反馈来看,在中英互译方面,这个新的翻译系统确实取得了跨越式的进步。百度声称其早在2015年就发布了全球首个互联网神经网络翻译系统。搜狗则表示:“搜狗翻译是国内首个全神经翻译的商用系统”。国内外几乎所有的主流翻译系统,包括有道翻译,腾讯翻译君,bing翻译都陆续开始使用基于神经网络的智能翻译系统。显然机器翻译已经跨入了新的时代,从过去基于短语的翻译模型升级到如今主流的神经翻译模型,而它们的实际表现如何呢?
笔者对现今主流的机器翻译系统进行对比测评,测试内容为的中英互译能力,测试时间为2018年4月。我们选择百度,谷歌,搜狗这三大翻译系统作为测评对象,百度和谷歌分别是国际和国内的机器翻译巨头,而搜狗翻译于2017年7月在国际顶级机器翻译比赛WMT (Workshop on Machine Translation)中译英项目中荣获世界冠军,也许会成为此次测评的一个搅局者。
英译中
长句
原句:during the 2006-2007 academic year about 66% of postsecondary public and private schools participating in student financial aid programs offered some distance learning courses.
百度:在2006-2007学年的高等公立和私立学校参与学生的财政援助计划66%提供的远程学习课程。
谷歌:在2006-2007学年期间,参加学生经济援助计划的大约66%的高等公立和私立学校开设了一些远程学习课程。
搜狗:在2006 – 2007学年,参加学生资助计划的公立和私立中学中,约66%的学校开设了一些远程学习课程。
在这一长句的翻译中,百度的翻译少了谓语,成了一个名词性的句子,谷歌和搜狗的翻译在语义上则是准确的。搜狗的翻译和谷歌相比,断句更加灵活和通顺。
原句:For a family of four, for example, it is more convenient as well as cheaper to sit comfortably at home, with almost unlimited entertainment available, than to go out in search of amusement elsewhere.
百度:例如,对于一个四口之家来说,舒舒服服地坐在家里,享受几乎无限的娱乐,比出去到别处去娱乐更方便,也更便宜。
谷歌:例如,对于一个四口之家来说,坐在家里舒适地坐着,几乎可以无限娱乐,而不是外出寻找其他地方的娱乐设施,这样更便利也更便宜。
搜狗:例如,对于一个四口之家来说,舒适地坐在家里,享受几乎无限的娱乐,比到别处去寻找娱乐更方便,也更便宜。
对这一句的翻译,谷歌“坐在家里舒适地坐着”不太恰当,搜狗和百度俩国内兄弟表现则好一些。
复杂从句
原句:Behaviorists suggest that the child who is raised in an environment where there are many stimuli which develop his or her capacity for appropriate responses will experience greater intellectual development.
百度:行为主义者认为,孩子是在一个环境里有许多刺激因素,开发其相应的反应能力将有更高的智力发展提高。
谷歌:行为主义者认为,在有许多刺激因素的环境中长大的孩子会获得更好的智力发展。
搜狗:行为主义者认为,在有许多刺激的环境中长大的孩子,发展了他或她做出适当反应的能力,他或她将经历更大的智力发展。
这一句子为多重从句结构,对机器翻译来说确实是不小的挑战。百度的翻译已经文不成句。搜狗的表现稍好,然而“发展了”之前缺失主语,对于“experience”一词的取义也不够好。谷歌的翻译精简地表达了原句意思,但丢失了一些细节。这一句的翻译三者表现都还不够。
原句:With the advent of World Wide Web in the 1990s, teachers embarked on the method using emerging technologies to employ multi-object oriented sites, which are text-based online virtual reality systems, to create course websites along with simple sets of instructions for its students.
百度:随着万维网在20世纪90年代的到来,教师开始使用新技术,采用多面向对象的网站,这是基于文本的在线虚拟现实系统的方法,创建课程网站以及简单的指令集为学生。
谷歌:随着20世纪90年代万维网的出现,教师们开始采用新兴技术来采用基于文本的在线虚拟现实系统的多对象导向网站,以便为学生创建课程网站和简单的指令集。
搜狗:20世纪90年代,随着万维网的出现,教师们开始采用新兴技术,利用基于文本的在线虚拟现实系统——面向多对象的网站,创建课程网站,并为学生提供简单的指导。
对于这一复杂结构的句子翻译,百度再一次出现了语法错误,甚至将“for its students”直接翻译为“为学生”放在句子最后。谷歌和搜狗则基本翻译正确,值得一提的是,对于“which are text-based online virtual reality systems”这一句的翻译,谷歌选择用一个“的”来连接前一句,而搜狗则更为巧妙地使用了“——”(破折号),使得整个句子更为通顺。
谏言/狸语
原句:Time goes by so fast, people go in and out of your life. You must never miss the opportunity to tell these people how much they mean to you.
百度:时间过得太快了,人们进出你的生活。你千万不要错过机会告诉这些人他们对你有多重要。
谷歌:时间过得如此之快,人们会进出你的生活。 你绝不能错过这个机会告诉这些人他们对你有多重要。
搜狗:时间过得太快,人们进出你的生活。你绝不能错过告诉这些人他们对你有多重要的机会。
对于这一句式结构并不算复杂的谏言,三者都采用了直译的方式,并没有追求“雅”的境界。从句子的通顺程度来说,百度表现的最好。
原句:be all ears | Love me, love my dog | Kiss someone’s ass | kiss up to
百度:洗耳恭听 | 爱屋及乌 | 亲某人的屁股 | 吻了
谷歌:都是耳朵 | 爱屋及乌 | 吻别人的屁股 | 拍马屁
搜狗:洗耳恭听 | 爱我,爱我的狗 | 亲吻某人的屁股 | 亲吻
对于狸语的翻译就很有意思了,谷歌的“都是耳朵”也是非常搞笑了,对于狸语的翻译三者各有千秋。
笔者感觉三者的翻译还带有一些个性,百度比较喜欢偏向俗话,而搜狗则表现得更为严谨,谷歌呢?有点像是不太懂汉语习惯,而弄出半文不白的感觉。
中译英
原文:自由必须是有目标的自由,不然的话,我们便很容易感到厌倦。
百度:Freedom must be freedom of purpose, otherwise we will easily get bored.(自由必须是目的自由,否则我们很容易感到厌烦。)
谷歌:Freedom must be a goal of freedom. Otherwise, we can easily become bored.(自由必须成为自由的目标。 否则,我们很容易变得无聊。)
搜狗:Freedom must be a purposeful freedom, otherwise, we can easily get tired of it.(自由必须是有目的的自由,否则,我们很容易厌倦它。)
先让翻译系统将这句话翻译成英文,然后将翻译出的英文复制让其再次翻译,得到的中文结果在括号中。可见只有搜狗的翻译是正确的。百度和谷歌则不能正确辨认这里的中文意思。
原文:君不见黄河之水天上来,奔流到海不复回。 君不见高堂明镜悲白发,朝如青丝暮成雪。
百度:Don’t you see the Yellow River from heaven, pour into the sea no longer return. Do not you see energy-saving, such as in the black hair Twilight into the snow.
谷歌:Do not you see the Yellow River water, rushing to the sea will not return. Do not you see Gao Tongming mirror sad white hair, North Korea, such as black silk into snow.
搜狗:You see how the Yellow River’s waters move out of heaven, entering the ocean, never to return. You see how lovely locks in bright mirrors in high chambers, though silken-black at morning, have changed by night to snow.
在此为难一下各位翻译君,让它们来翻译李白的诗句,233333~
看谷歌的“Gao Tongming”,“North Korea”,看来它已经无法理解这些“诡异”的句子了,“青丝”倒是翻译成了“black silk”,值得鼓励。而百度和搜狗这俩国内兄弟,看来理解诗句意思是没问题了,翻译上也在追求对仗美,不算完美,但也很不错了,只是不知道这些对于诗句的翻译是基于机器自身的学习理解还是人工语料添加,如果是前者那就太厉害了。
总结
总体来看这三个主流翻译系统中,搜狗和谷歌的表现各有千秋,在面对大部分句子时都能够做到比较准确的翻译,语句也比较通顺,美中不足是对于个别单词的取义比较死板;而谷歌则是在对中文的理解上不够精确,以及中文表达不够地道或者丢失细节;在面对英文长难句的翻译时,百度甚至出现了一些基本的语法错误,这是比较让人失望的。
目前来说,机器翻译还不足以使我们放心地把原文发给它们,不经审视就将翻译结果拿来使用。另外大部分情况下它们还是停留在“信”和“达”的层面上,未来还有很大的发展空间,也许有一天机器翻译能够达到理解语句中蕴含的情感态度的程度?随着大数据和深度学习的不断发展,那一天越来越近了。
本文文字及图片出自 www.jianshu.com
共有 1 条讨论