语言是机器与人类连接的重要路径,知识是机器深入了解现实世界的必需品。8月31日,2019世界人工智能大会·开发者日在上海举办,会上,百度AI技术平台体系执行总监吴甜受邀出席并揭秘了百度语言与知识技术在AI产业化方面的全新进展及突破。
吴甜表示,“自然语言理解是人工智能领域最具有挑战性的问题之一。在面对产业开发者的技术攻克中,我们应重视实际场景中问题的沉淀与总结,并在需求中不断精进技术,以创新遇见未来。”
搭建语言与知识技术平台全景 精准击中产业需求
在演讲开头,吴甜就为到场来宾展示了百度AI同传和百度地图语音互动的实际案例,并表示1964年《机器翻译浅说》中畅想的未来已实现,不管台上是什么国家的演讲者,台下的人都可以从耳机里听到自己的母语。百度在语言与知识技术领域带来的惊喜远不止这些,目前百度语言与知识技术以布局智能搜索、深度问答、对话系统、智能写作、机器翻译等多场景,让用户在日常使用中就可以感受到语言与知识技术带来的便利。
如今,产业开发者需要的不再是单点技术,他们需要优异的应用效果、高效的研发效能、灵活的服务部署,能将AI技术切实落地于相应的场景的有效路径,这与百度大脑语言与知识技术平台开放的初衷不谋而合。为此,百度大脑语言与知识技术开放平台不断降低技术使用门槛,搭建起以飞桨为底层技术支持,包括语言与知识基础技术层、应用级平台层、服务方式、场景方案等,让一线产业开发者都用得上“趁手”的AI工具,迅速将相关技术布局于应用场景中。
百度化身技术“先行者” 语言与知识技术贯通落地全流程
作为机器理解人类意图的最重要技术之一,语言与知识技术是国内外科技巨头的必争之地。百度深耕语言与知识技术多年,可谓是站在了巴别塔的更高层。
2019年,百度发布可持续学习语义理解框架ERNIE 2.0发布,在持续学习方面实现新突破,每当引入新任务时,该框架可在学习该任务的同时,不遗忘之前学到过的信息。目前,ERNIE已在共计16个中英文任务上超越了BERT和XLNet,取得了SOTA效果。除了在学术领域的价值,ERNIE 2.0背后蕴藏着不容忽视的产业价值,尤其是在目前国际贸易与科技背景下,ERNIE 2.0代表的无监督预训练语言模型正处在非常关键的产业位置。
此外,ERNIE也得到了深度学习平台飞桨(PaddlePaddle)的底层加持。在GPU多级多卡训练中,基于飞桨训练ERNIE模型多机加速比达到77%,远高于其他主流实现。在加载预训练模型方面,飞桨预训练模型管理和迁移学习组件PaddleHub,可一键加载工业级预训练模型。使用PaddleHub组件,可以让ERNIE 语义表示模型实现1行代码完成预训练模型的预测、10行代码完成大规模预训练模型的迁移学习。
飞桨自然语言处理模型库PaddleNLP是基于飞桨打造的工业级中文NLP开源工具集,拥有当前业内效果最好的中文语义表示模型和基于百亿级大数据训练的预训练模型,可大大减少用户在开发过程中的重复工作,获得更好的基于工业实践的应用效果。
在应用级平台方面,吴甜以UNIT(理解与交互技术)平台为例,解析了此类平台的智能便捷。智能客服、智能驾驶等场景都对人机对话的流畅度与准确性提出严苛考验,UNIT平台致力于打造为对话系统定制的专业、低成本、全链路的技术与服务平台,并已经为金融、教育等行业提供解决方案和服务。
UNIT平台核心技术包括语义理解、阅读理解和对话管理三大部分,其中ERNIE SLU可达到在同样理解精度下标注量降低37%~72%,DataKit可使数据生产效率提升8倍,使用语义理解SLU定制可使对话技能综合研发成本降低60%。目前,UNIT平台已实现6.8万定制技能,累计交互次数达570亿次,全面覆盖智能客服、智能出行、智能办公及其他智能交互场景,为一线开发者实现AI产业化提供有力工具。
坚持创新 遇见语言与知识技术的“下一个50年”
“50多年前的预言已经实现,它依赖于技术的突破和创新”,吴甜认为,作为拥有30余项技术工具、服务方式多样灵活可定制、技术全面领先并且效能更高的语言与知识技术开放平台,百度应该将创新的AI能力源源不断的输送到应用一线,实现真正的突破创新、开源开放、智见未来。
坚持创新、开放是百度在语言与知识技术领域的长期发展目标。近年来,百度也在该领域不断实现技术突破,持续为开发者和相关领域提供更好的技术支持,并加深技术与应用的结合,推动AI技术落地更多场景,加速产业智能化进程。
关键词: