巴别塔之路,人工智能能否颠覆翻译的未来?

下一篇文章

谷歌旗舰平板 Pixel C 深度评测

编者按: 李玮是科技从业者,在多家网站开设专栏。同时他也是为 TC 中国长期贡献稿件的译者之一。

因为耶和华在那里变乱天下人的言语,使众人分散在全地上,所以那城名叫巴别。 — 创世纪 11:9

《圣经·创世纪》中提到了人类多种语言的起源,而人类语言的复杂性正成为互联网发展,乃至全球经济发展的桎梏。根据民族语言网(Ethnologue)提供的数据,目前全球正使用的语言多达 7100 种,但互联网网页上的语言只占其中的约 5%。甚至一些国家的官方语言,例如印地语和斯瓦西里语,也很少为互联网所包容。

为了促进不同地区之间的沟通,使全球各地区人群都能参与到数字经济中,翻译显得尤为重要。业内人士估计,目前全球翻译市场的年规模达到 370 亿美元。在新闻出版行业,国内外媒体和图书出版的交流正越来越火爆。不仅路透社、《华尔街日报》和《金融时报》等知名媒体的内容能在第一时间被翻译成中文,《乔布斯传》和《从 0 到 1》等硅谷新书也在被迅速本地化。在企业界,对各类报告、技术手册和合同文书的本地化需求也非常旺盛。

因此在过去多年时间里,市场对翻译,尤其是优质翻译有着强烈的需求,陪同在国家领导人身旁的同声传译更是公众瞩目的焦点。然而与其他行业类似,翻译也正在被科技颠覆。

技术颠覆传统翻译?

一方面,翻译开始走向众包。包括 Facebook 和 Twitter 在内的社交媒体正尝试通过众包模式实现网站的本地化,而译言网和 Rantonwork 等翻译平台也在利用众包的力量去提供其他语言的内容。另一方面,人工智能的发展推动了机器翻译的进步。在国外,许多科技巨头均利用人工智能技术去提供翻译服务,例如近期引人关注的 Skype Translator。在国内,百度、金山、网易有道、科大讯飞也都在开发类似的技术。

其中,人工智能翻译的发展尤其值得关注。目前,在谷歌翻译应用中,只需将摄像头指向希望翻译的文字,用户就可以立即获得翻译结果。到今年夏季,谷歌这一服务已支持 27 种语言的实时语音翻译,以及 37 种语言的文字翻译。

谷歌软件工程师奥塔韦·古德在技术研发博客上表示,为了实现这一目标,谷歌收购了现实增强翻译应用 Word Lens,并利用机器学习和卷积神经网络技术去加强该应用,而图像识别是最关键的一点。

他举例称,5 年前,让计算机识别照片中是狗还是猫都非常困难,但凭借卷积神经网络的发展,计算机不仅能区别动物的不同,甚至还能识别宠物犬的品种。

这项技术实现的第一步是将画面中的背景和文字分离。计算机会识别同色的不同像素点,并将其确定为字符。随后,通过深度学习技术,应用可以将字符拼写成单词。卷积神经网络的作用则在于,使计算机能够分得清字符和非字符,并在模糊、脏乱的背景中准确识别出字符。最终,计算机会利用模糊查找技术去查词典,翻译出已识别的单词。在实际场合中,通过谷歌翻译去实时翻译外文菜单或路旁标志牌非常成功。

微软的技术发展甚至要更进一步。今年,微软旗下 Skype 推出了 Skype Translator,成功实现了不同语言的实时语音翻译。利用这一功能,微软执行副总裁沈向洋甚至用中文接受了《纽约时报》记者的英语视频采访,向对方解释了 Skype Translator 未来的意义。

听起来,人工智能翻译不仅能在实时性上胜过普通翻译,翻译准确性也不会差得太远。但实际上,目前的机器翻译仍局限于让用户“看懂”。基于机器翻译的结果,用户连猜带蒙或许可以弄清外文的含义,但关于流畅度、文学性,乃至语言的美感,人工智能仍有很大的缺陷。

智能+人工=翻译的未来

为了弥补人工智能的不足,许多翻译技术公司正在尝试新模式,即人工智能+翻译众包的结合。这或许代表了翻译的未来发展趋势。

在这种模式中,人工智能首先完成最基本的翻译。在拿到来自机器的初步翻译结果后,众包的普通译者首先对机器翻译的差错进行更正。随后,高级译者将对翻译后文本的文学性和专业性做进一步修订。这样的流水作业将带来更高的效率,同时确保质量。

机器学习技术也会参与这一过程。通过机器学习,计算机将基于人工修订后的结果学到准确的单词表达,以及人类的语言习惯,从而优化未来的翻译能力。另一方面,计算机也会对人工翻译的“硬性”部分进行追踪,帮助译者避免低级错误。在这一过程中,人工智能和人工翻译将形成良性循环。

人工智能对人工翻译的帮助还不仅于此。例如,在众包译者工作的同时,人工智能将会了解不同译者具备的专业性。通过对这类数据的收集和分析,人工智能可以向不同译者分配他们擅长的翻译内容。例如,关于计算设备说明书的翻译将精准分配至电脑专家,而财务报告的翻译将可以由会计专业的译者来担纲。

这种模式正在引起全球投资人的关注。例如,硅谷创业孵化器 Y Combinator 在 2014 年冬季班时孵化了这样一家公司 Unbabel。与传统人工翻译相比,人工智能的引入提高了效率,而不同于单纯的机器翻译,人工翻译使翻译的表达更准确、更流畅,更适合用于正式场合。

在国内,市场最主要的翻译需求是中英文之间的互译,无论是新闻媒体、学术论文,还是英剧美剧。人工智能和人工翻译的结合可以优化当前翻译的效率,带来更自由的跨国交流,创造更大的市场机会。

更重要的是,对于尚未被纳入互联网的少数族裔语言,这种模式将带来明显帮助。可以想象,通过统一的人工智能数据库,谷歌、雅虎、Facebook 等网站将自动翻译成非洲、南亚或印第安语言,而当地志愿者可以在此基础上高效的完成优化。这将消除互联网向贫穷国家普及过程中的语言障碍,成为真正连接全世界的“信息高速公路”。

 

blog comments powered by Disqus