新智元编译知多少
新智元编译知多少 NMT 技术已经被用于各种机器翻译系统,并接连取得极好的表现。谷歌的GNMT 在此基础上又进一步,实现了商业化的部署。 2016年10月18日, 世界人工智能大会技术分论坛,特设“新智元智库院长圆桌会议”,重量级研究院院长7 剑下天山,汇集了中国人工智能产学研三界最豪华院长阵容:美团技术学院院长刘江担任主持人,微软亚洲研究院常务副院长芮勇、360人工智能研究院院长颜水成、北京理工大学计算机学院副院长黄华、联想集团副总裁黄莹、Intel 中国研究院院长宋继强、新华网融媒体未来研究院院长杨溟联袂出席。 谷歌宣布推出谷歌神经网络机器翻译系统(GNMT),采用最先进的神经网络机器翻译(NMT)技术,大幅提升机器翻译的水平,最高将翻译准确率提高到87%,MIT TR 报道称,“几乎与人类无异”。“这……极好地展示了神经网络机器翻译的实力,”Yoshua Bengio 在接受Science 记者采访时表示。几年前,正是Bengio 和他在加拿大蒙特利尔大学的深度学习团队开创了NMT。 在此前接受新智元采访时,Bengio 谈到过去让他感到自豪的研究,“说一个比较新的例子,最近在机器翻译方面取得了一些进展,其中有很大部分是得益于我们研究小组的成果,神经机器翻译(Neural Machine Translation),这是大约两年前做出来的,现在全世界的实验室都在使用,是最先进的机器翻译技术,也是神经网络首次在机器翻译领域取得重大突破——之前,神经网络在语音识别、计算机视觉这些领域都取得了巨大的突破,但是机器翻译、自然语言处理还尚处于起步阶段。因此,这是我认为我们可以自豪的一项成果。” 本次的采访中,Bengio 还谈到了他对谷歌、Facebook 等人工智能巨头的看法,以及对中国人工智能技术与市场的展望。10 月18 日,中国自动化学会和新智元联合主办的世界人工智能大会在北京国家会议中心举行,Bengio 作为本次大会的特邀嘉宾,将在会上发表视频讲话。欢迎到现场观看Bengio 对本次大会的寄语,以及更多精彩内容。点击阅读原文抢票参会! 在Google Research 官方博客,谷歌机器翻译团队的Quoc V. Le、Mike Schuster 也发表了文章,题目中也强调了“商业部署”。 在十年前推出时,谷歌翻译采用的是基于词组的机器翻译(PBMT),几年前,谷歌大脑团队开始使用循环神经网络(RNN),直接学习输入序列到输出序列之间的映射。基于词组的机器翻译(PBMT)是将句子拆分成字词后单独翻译,而神经网络机器翻译(NMT)则将输入视为一个整体进行翻译。这样做的好处是翻译时需要进行的调整少了很多。 当神经网络机器翻译技术刚刚出现时,就在中等规模的公共数据集上取得了与PBMT 不相上下的成绩。自那时起,从事机器翻译研究的人提出了很多种方设法改善NMT,包括使用注意力将输入和输出对齐,将单词拆分成更小的单元或模仿外部对齐模型应对生僻字词。尽管如此,NMT 的表现仍是不足以成为产品被大规模部署。 下面的动图展示了GNMT 进行汉英翻译的过程。首先,网络将汉字(输入)编码成一串向量,每个向量代表了当前读到它那里的意思(即e3 代表“知识就是”,e5 代表“知识就是力量”)。整句话读完之后开始解码,每次生成一个作为输出的英语单词(解码器)。 要每一步生成一个翻译好的英语单词,解码器需要注意被编码中文向量的加权分布中,与生成英语单词关系最为密切的那个(上图中解码器d 上面多条透明蓝线中颜色最深的那条),解码器关注越多,蓝色越深。 使用人类对比评分指标,GNMT 系统生成的翻译相比此前有了大幅提高。在几种重要语言中,GNMT 将翻译错误降低了55%-58%。 此外,谷歌大脑团队还宣布GNMT 汉英英汉试用版上线。现在,谷歌翻译汉英语言的移动版和网页版都率先使用GNMT,每天负责1800万次翻译任务。 谷歌大脑团队表示,GNMT 的上线得益于TensorFlow和深度学习专用加速器张量处理单元(TPU),尤其是后者,提供了足够的计算能力来部署这些功能强大的GNMT 系统,同时满足谷歌产品严格的延迟要求。谷歌大脑团队表示,今后的几个月里将持续推出更多的语种服务用户。 机器翻译的挑战仍然存在。GNMT 还是可能会犯一些人类绝对不会犯的错,比如漏译、误译专有名词或罕见词,翻译时没有考虑到整段话乃至全文的意思。总之,GNMT 有待改善的地方还有很多,但无论如何,GNMT 都代表了一座重大的里程碑。他们感谢过去几年中谷歌内外以各种形式参与这项工作的研究人员和工程师。 谷歌最新技术在将英语翻译为西班牙语时,最高将准确率提高到87% 值得一提的是,很多研究者认为,这次谷歌翻译取得的“里程碑”,与其说是技术突破,不如说是工程上的胜利。神经网络机器翻译的技术是从语言和图像那里得来的灵感,是多种技术的整合。 但不管怎样,像谷歌翻译这样在支持1 万多种语言对的商业应用,还是很了不起了。 |
相关阅读: |