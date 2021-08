听说微软搞了个 AI 翻译文言文,赶紧来试试,先来一段《曹刿论战》的开头:

我震惊了,居然能把“我”翻译成“鲁国”,“公”翻译成“鲁庄公”。

难道 AI 除了学习文言文词汇和语法,还熟读了《左传》?

换成诗表现又将如何?

虽然翻译出来不是很有文学性,但 AI 正确理解到了“望着同一个月亮”这层意思。

嚯,这个翻译极大地引起了我的兴趣。

既然翻译出正确词意不是太难,那文言文中的特殊语法 AI 能否掌握?

为了更好地评估微软翻译的能力,这里请出老牌选手百度翻译,让它们比试一下。

这里考点是互文的修辞方法,应该理解成秦汉时期的明月、秦汉时期的关口。

百度的答案是:

看来百度没理解到位,再看看微软的答案:

微软正确理解了互文,率先拿下 1 分。

这句的考点是词类活用,绿本来是个形容词,在这里用作动词。

还是百度先来:

没问题,接下来是微软:

等一下,虽然绿用作动词翻译对了,可是后面怎么多了一个“可是”?

难道…… 把后半句诗也输进去试试:

果然如此,看来微软翻译在用整句进行训练的时候掌握了句与句之间的转折关系,后来不知怎么又算到前半句里了。

这次百度扳回一局,1:1 平。

比如《邹忌讽齐王纳谏》中的“我孰与城北徐公美?”

按惯例百度先:

然后是微软:

看来两个 AI 都学会了倒装句的用法,最终结果 2:2 平,各有千秋。

微软翻译虽然多学会了一个互文,但毕竟还是年轻选手,对句子之间关系的处理需要再练习。

接下来挑战一下微软文言文翻译的极限。

比如维基百科其实就有个文言文版叫维基大典,里面刚好有微软的词条。

来试试让微软 AI 翻译一下自己公司的介绍:

看起来现代的伪文言文对于这个刚出生的小 AI 来说还是太苛刻了。

虽然也特别训练了“微软”和“电脑”这种现代才出现的名词,但遇到“一九七五年”这种古代不用的表达就不行了,前老板比尔盖茨的名字也没认出来。

“立之者”这里还按古文的语境脑补出一个“国君”,可能这就是过拟合吧。

说到现代的表达方式,其实这个翻译工具还可以倒过来用,把白话文译成文言文。

比如诸葛丞相那句“我从未见过有如此厚颜无耻之人!”要是用文言文说出来是不是就更对味了?

那么,这样的模型是怎么“炼成”的呢?

用 AI 搞文言文翻译,确实不是头一回见。

百度是最早用机器学习做文言文翻译的,还申请过相关专利:「一种在白话文与文言文之间进行文体转换的方法和设备」。

相关文言文翻译的模型也不少,从机器学习、RNN 到 Transformer 都有,像微软这次采用的,就是 Transformer 模型:

▲ 图源:微软研究院 AI 头条

不过,文言文翻译中的训练数据,却一直是个难点。

相比于其他主流语言(中文现代文、英文等),文言文可以说是训练数据极少,同时还存在句式变换、繁简混合等问题,造成翻译的生硬。

这次微软的文言文翻译,主要就解决了四个方面的数据问题:

然而这都还只是文言文和中文之间的互译,整点英文试试?

这次微软的文言文翻译是直接整合到了 Bing 翻译里,难道还可以把文言文翻译成外语?

先挑战一下单个的英文句子:

Never gonna give you up