大数据文摘:“细节狂魔”搞定方言文言文,谷歌翻译被碾压!全球首个翻译引擎进化归来( 三 )
但真正重要的是Linguee的技术积累 , Linguee的联合创始人GereonFrahling之前就在谷歌研究院工作 , 2007年 , 他选择开启新的征程 , 团队数年来一直致力于机器翻译 , 直到2016年 , 他们才开始全力开发全新的系统 , 建设新公司 , 也就是DeepL 。
【大数据文摘:“细节狂魔”搞定方言文言文,谷歌翻译被碾压!全球首个翻译引擎进化归来】Linguee的核心竞争优势就是爬虫和机器学习系统 , 前者能够抓取互联网上超过10亿句翻译结果和查询的大型数据库 , 后者在网页上搜索相似片段的真实翻译方法并对其评估 , 两者结合使Linguee成为了当时“世界上首个翻译搜索引擎” 。
十年积累下来 , Linguee无论在数据和对算法的研究上都不可小觑 , 而这也直接成为DeepL的绝对优势 , 为团队训练新模型打好了坚实的基础 。

文章图片
DeepL变革性的神经架构在冰岛的一台超级计算机上运行 , 该计算机能力为5.1petaFLOPS(每秒5100万亿次操作) , 不到一秒内能翻译100万单词 。 “冰岛可再生能源丰富 , 因此我们可以在这里用非常低廉的成本训练我们的神经网络 。 我们将继续专注于高性能硬件” , DeepL的CTOJaroslawKutylowski说 。
“我们的神经网络架构已经实现了多个显著改善” , GereonFrahling表示 , “通过用不同的方式安排神经元及其连接 , 我们的网络比目前其他神经网络更全面地映射自然语言 。 ”
大学、研究机构和Linguee的竞争对手发布的研究进展表明 , 卷积神经网络才是机器翻译的正确道路 , 而非DeepL之前使用的循环神经网络 , 但现在不是探讨二者区别的时候 , 对于相关词语的长、复杂字符串 , 只要你能够控制其弱点 , 卷积神经网络效果会更好 。
例如 , CNN一次处理一个单词 , 当句末单词决定句首单词的形成时 , 这就成了问题 。 查找整个句子寻找句首单词 , 如果网络获取到的第一个单词是错误的 , 就太浪费了 , 还得使用该知识重新开始 , 因此DeepL和机器学习领域的其他机构在CNN转向下一个单词或词组时 , 使用能够监控此类潜在问题的“注意力机制”来解决 。
DeepL在最新版本增加了对日语和中文(简体)的支持 , 包括日语汉字 , 平假名和片假名以及数千个汉字 。 目前 , DeepL支持的语言数量增加到11种 , 虽然语言支持不如其他翻译服务广泛 , 如GoogleTranslate和BingMicrosoftTranslator均支持一百多种不同的语言 , 但翻译精度也是不可忽视的关键点 。
掌握多国语言的Techcrunch编辑Frederic曾这么评价DeepL:“谷歌翻译的风格非常直接 , 但却错过了一些细节和习语(或者把这些习语翻译错了) , 而DeepL经常可以提供更加自然的翻译效果 , 就像训练有素的人类翻译一样 。 ”

文章图片
说了这么多 , 还是那句话 , 真真假假还是自己试了才知道 , 有兴趣的同学可以亲自动手试试 , 要是遇到什么好玩的翻译结果还记得告诉文摘菌噢~
最后 , 官网链接双手奉上:
https://www.deepl.com/translator
点「在看」的人都变好看了哦!
- 「百度」百度发布直播搜索大数据:疫情下电商及知识类直播增速明显
- 「科技小数据」消费信贷的客户呈现出年轻化的趋势,新消费崛起
- 中国新闻网■中国LAMOST发布最新巡天数据集 光谱总数达1448万条
- 罗永浩直播带货破亿,超7600万次商品点击,老罗直播数据完整版报告来了!
- 『未央网』4月正式上线,10家韩国金融及监管机构联合推出开放金融数据库
- 「TalkingData」打造智能化的小微企业信用评估体系?,如何用数据+算法
- #cnBeta#重大失误?NASA全面向AWS云端迁移数据 却忽略了访问成本
- 真的会有报复性消费吗?猎豹移动机器人大数据告诉你
- [光明网]大数据“复学码”助师生安全复学
- 【砍柴网】华云数据亮相第四届智慧医疗创新大赛湖南赛区 分享借云助力智慧医疗加速变革
