大数据文摘:“细节狂魔”搞定方言文言文,谷歌翻译被碾压!全球首个翻译引擎进化归来( 三 )


但真正重要的是Linguee的技术积累 , Linguee的联合创始人GereonFrahling之前就在谷歌研究院工作 , 2007年 , 他选择开启新的征程 , 团队数年来一直致力于机器翻译 , 直到2016年 , 他们才开始全力开发全新的系统 , 建设新公司 , 也就是DeepL 。
【大数据文摘:“细节狂魔”搞定方言文言文,谷歌翻译被碾压!全球首个翻译引擎进化归来】Linguee的核心竞争优势就是爬虫和机器学习系统 , 前者能够抓取互联网上超过10亿句翻译结果和查询的大型数据库 , 后者在网页上搜索相似片段的真实翻译方法并对其评估 , 两者结合使Linguee成为了当时“世界上首个翻译搜索引擎” 。
十年积累下来 , Linguee无论在数据和对算法的研究上都不可小觑 , 而这也直接成为DeepL的绝对优势 , 为团队训练新模型打好了坚实的基础 。
大数据文摘:“细节狂魔”搞定方言文言文,谷歌翻译被碾压!全球首个翻译引擎进化归来
文章图片
DeepL变革性的神经架构在冰岛的一台超级计算机上运行 , 该计算机能力为5.1petaFLOPS(每秒5100万亿次操作) , 不到一秒内能翻译100万单词 。 “冰岛可再生能源丰富 , 因此我们可以在这里用非常低廉的成本训练我们的神经网络 。 我们将继续专注于高性能硬件” , DeepL的CTOJaroslawKutylowski说 。
“我们的神经网络架构已经实现了多个显著改善” , GereonFrahling表示 , “通过用不同的方式安排神经元及其连接 , 我们的网络比目前其他神经网络更全面地映射自然语言 。 ”
大学、研究机构和Linguee的竞争对手发布的研究进展表明 , 卷积神经网络才是机器翻译的正确道路 , 而非DeepL之前使用的循环神经网络 , 但现在不是探讨二者区别的时候 , 对于相关词语的长、复杂字符串 , 只要你能够控制其弱点 , 卷积神经网络效果会更好 。
例如 , CNN一次处理一个单词 , 当句末单词决定句首单词的形成时 , 这就成了问题 。 查找整个句子寻找句首单词 , 如果网络获取到的第一个单词是错误的 , 就太浪费了 , 还得使用该知识重新开始 , 因此DeepL和机器学习领域的其他机构在CNN转向下一个单词或词组时 , 使用能够监控此类潜在问题的“注意力机制”来解决 。
DeepL在最新版本增加了对日语和中文(简体)的支持 , 包括日语汉字 , 平假名和片假名以及数千个汉字 。 目前 , DeepL支持的语言数量增加到11种 , 虽然语言支持不如其他翻译服务广泛 , 如GoogleTranslate和BingMicrosoftTranslator均支持一百多种不同的语言 , 但翻译精度也是不可忽视的关键点 。
掌握多国语言的Techcrunch编辑Frederic曾这么评价DeepL:“谷歌翻译的风格非常直接 , 但却错过了一些细节和习语(或者把这些习语翻译错了) , 而DeepL经常可以提供更加自然的翻译效果 , 就像训练有素的人类翻译一样 。 ”
大数据文摘:“细节狂魔”搞定方言文言文,谷歌翻译被碾压!全球首个翻译引擎进化归来
文章图片
说了这么多 , 还是那句话 , 真真假假还是自己试了才知道 , 有兴趣的同学可以亲自动手试试 , 要是遇到什么好玩的翻译结果还记得告诉文摘菌噢~
最后 , 官网链接双手奉上:
https://www.deepl.com/translator
点「在看」的人都变好看了哦!