欢迎来到 一号站平台|一号站平台注册登录(官网)
全国咨询热线:
联系我们

地址:

电话:

传真:

邮箱:

公司新闻
搜狗获全球白话翻译大赛冠军 多模型交融细节打
时间: 2018-11-12浏览次数:
11月7日,在2018IWSLT(International Workshop on Spoken Language Translation)全球尖端白话机器翻译评测大赛上,搜狗凭仗BLEU(BLEU是机器翻译主动点评办法,其数值越大意味着越精确)值28.09的成果

  11月7日,在2018IWSLT(International Workshop on Spoken Language Translation)全球尖端白话机器翻译评测大赛上,搜狗凭仗BLEU(BLEU是机器翻译主动点评办法,其数值越大意味着越精确)值28.09的成果夺得冠军,超越第二名1.6个BLEU。在如此重量级赛事中斩获冠军足以凸显搜狗在白话机器翻译范畴的抢先地位。
搜狗获全球白话翻译大赛冠军 多模型交融细节打磨成取胜法宝
  IWSLT作为全球最具影响力的白话机器翻译评测竞赛,本年是第15届,共有10支部队参赛。除了全球抢先的学校、科研机构,本年也有包含美国APPTEK、国内科大讯飞、阿里巴巴在内的“大厂”参赛。
 
  TechWeb近来和搜狗参赛核心成员进行了近距离交流,从中或许可以窥见搜狗机器翻译才能快速打破的窍门。
 
  两年两项范畴夺冠 成机器翻译标杆
 
  在机器翻译范畴,这已不是搜狗第一次取得冠军。
 
  在上一年的2017WMT(Workshop on Machine Translation)机器翻译尖端评测大赛上,搜狗就取得中英和英中翻译双向冠军,其机器翻译的精确率和速度遭到业界瞩目。
 
  搜狗机器翻译负责人王宇光介绍,本届IWSLT2018评测竞赛中,考评的是将英语演讲语音翻译成对应的德语文本,难度系数更高。
 
  IWSLT2018大赛共分了2大赛道,其一是Baseline Model(基线模型赛道),这是业界最干流最有用的语音翻译应用技能。另一赛道是End-to-End(端到端赛道),为本届大赛新增设赛道。
 
  baseline模型对应的语音翻译计划,包含语音辨认、机器翻译两大模块,选用多步流水线设计,即语音信号先输入语音辨认系统得到源言语的辨认文本,然后再将辨认文本送入机器翻译系统输出目标言语的对应译文。
 
  End-to-End模型则是输入语音,根据深度神经网络模型直接输出译文,并不会发生源言语的辨认中间成果。
 
  搜狗参与的是baseline模型赛道比拼,并终究夺得冠军。
 
  从竞赛成果BLEU数据来看,搜狗的BLEU最高,到达28.09。第二名是科大讯飞BLEU26.47,相差1.6个BLEU。搜狗语音技能负责人陈伟表明,从BLEU上来看二者距离现已比较显着,这种距离从用户层面上现已是可感知程度。
 
  新增赛道End-to-End模型赛道的最高BLEU仅为19.4,与baseline模型成果相差甚远,End-to-End模型离能实践商用处理用户翻译需求还有很大距离。
 
  多模型交融 细节打磨成取胜法宝
 
  王宇光介绍,IWSLT201大赛,搜狗共投入近17人的团队,耗时近3个月时刻打磨整合声学模型、机器翻译、语音增强、言语模型、解码器等范畴技能才能。
 
  搜狗语音技能负责人陈伟表明,“这次IWSLT评测数据系统是真实场景下的,而且又涉及到跨言语(英德)的现象,查验了咱们才能,也证明咱们在不同语种之间的搬迁才能。”
 
  陈伟介绍,在baseline模型的语音辨认、机器翻译两大模块方面,从技能试验上看,在言语辨认上,现在搜狗和讯飞水平根本相等,在文本翻译上搜狗做的更好。可是,他也着重“做好语音翻译这件事,除了单拼语音辨认、单拼翻译以外,首要仍是拼细节。”
 
  在IWSLT201大赛竞技中,陈伟泄漏,为了保证白话翻译精确率更好,无论是语音辨认仍是机器翻译,都选用了多个不同模型交融去做,包含不同的语料、时刻点、数据、特征等。每个模型优势不同,多个模型做磨合,让多个专家一同做决策,这样能保证精确率有进一步的提高。仅语音辨认方面,搜狗团队就用了用包含TDNN、BiLSTM、Deep-CNN在内的多个模型交融。
 
  语音辨认场景往往存在许多问题,如演讲者白话化现象、现场噪声问题,翻译方面有选词、一词多义问题。怎么去应对这些问题,许多是在细节上打磨。除了把语音辨认和机器翻译做好,还需要处理语音翻译结合部分的作业,如语音顺顺滑、断句等等作业。
 
  此外,搜狗现已向群众推出了翻译机、同传等产品,搜狗同传产品在网球公开赛、游水世界杯等多场景下进行了实践运用。这些来源于实践产品的经历和用户反馈,也协助搜狗语音翻译技能不断迭代打破。现在在噪音相对小的情形下,搜狗语音辨认精确率可达95%,以5分制点评,机器翻译能维持在4分左右。在陈伟看来,这些都成为搜狗白话翻译冠军实力的注解。
 
  加快语音翻译技能商业化落地
 
  根据搜狗语音翻译实力,现在搜狗打造的同传、游览翻译狗、录音翻译笔等产品现已落地多个场景,并不断迭代升级。
 
  搜狗同传现在已支撑过许多科技大会,具有了很强的科技特点。现在开端测验在网球、游水竞赛、专业学术会议等范畴做同传适配,未来将向更多范畴拓宽。
 
  陈伟表明,虽然语音翻译技能现已有了打破性发展,可是和成熟的人工同传相比还有很大距离。预计到2020年左右,机器同传的水平可以到达一般水平速记的程度。现在搜狗同传期望可以更好地合作人、协助人,并不是替代人。


Copyright ©  2018 一号站平台空调制造有限公司版权所有 Power by moke8