入局语音赛道 依图科技不做“孤胆英雄”
原标题:入局语音赛道 依图科技不做“孤胆英雄”
眼下,行业巨头都在打造自己的智能语音生态系统,国外有IBM、微软、Google等,国内则有百度、阿里、科大讯飞、搜狗和云知声。
但这一次,四大AI独角兽之一的依图科技也正式拿到入场券了。
雷锋网12月11日消息,依图科技今日公布了其在中文语音识别技术上的最新突破,宣称在全球最大的中文开源数据库AISHELL-2中,依图短语音听写的字错率(CER)仅为3.71%,相比原业内领先者提升约20%,大幅刷新现有纪录。
此外,依图科技现场宣布了与微软Azure和华为的两大全新合作。
为何此时入局?
对于依图来说,从计算机视觉进入到语音识别,是一次巨大的跳跃,因为目前行业巨头林立,入局者比依图更早拿到市场份额。
但是依图首席创新官吕昊博士看来,现在的语音识别技术发展还是不够的,相较于人脸识别的准确率而言,语音识别发展目前都比较缓慢,无论是学术界还是工业界,对于语音市场都很看好,这意味着未来发挥空间十分巨大。
雷锋网也了解到,语音识别技术其实几十年前就在发展,从50年代的贝尔研究所到八九十年代美国和日本在该技术上的突破,从软件到硬件都在取得进展;我国语音识别研究起始于1958年,后来的“863计划”中语音识别成为重要课题,中国的语音识别技术开始进入了真正研究阶段。
但由于语音的场景复杂,技术突破一直处于缓慢的状态,目前应用较好的也只是特定的几个场景。目前业内一些机构已宣传识别技术达到了人类水平,但大多数情况下都来自安静、近场等受限环境下的结果。而复杂的场景诸如电话、语音节目、远场、混响、噪声、口音、语音节目等,则需要针对性地开发不同模型。
“但技术无法束缚我们的想象力。”
吕昊上任依图首席创新官近一年时间,去年年底,他辞去了在Google的工作,离开了生活十年的美国,回国加入依图。他觉得,在语音识别领域,依图科技是一名新生,但立志扮演创造行业拐点的角色。
“依图入局语音市场的初心就是源于好奇心,想用算法技术推动实际问题的解决。我们在AI领域做了那么多年,已经能深入理解和推广人工智能的应用了。”
可见,作为AI理解世界重要的组成部分,作为人人交互、人机交互最重要的入口,语音识别正在拉伸依图的AI版图。
尽管这次官方说法是“首次进入语音行业”,但实际上,依图一直都有涉猎这个领域,语音和语义的相关技术之前在其医疗的相关产品中有过展示,只是没有公布。
吕昊坦言,科大讯飞做语音技术,的确是业内领先的,但是科大讯飞的语音有多好、和其他语音的距离有多远这些方面,其实很难界定——因为不太透明。准确率上,行业水平都是98%-99%,在什么情况下测的,大家也无法评判。
实际上,入局语音市场,还有个因素,吕昊也一并告诉了雷锋网。
“工业界目前做语音识别的水平已经远远超过学术界,在一些公开数据集上有着1-3倍的性能提升。而工业界目前做语音技术的就那么几家,靠学术界去往前推进商业模式,似乎没有可选的路径,因为数据成本非常之高。干脆自己来做。”
联手巨头:有了华为和微软,语音市场的入场券拿的更快
这一次,选择新赛道,依图并非想做“孤胆英雄”。
因为华为、微软都选择和依图站在了一起。
发布会现场,依图宣布联合微软Azure推出依图语音开放平台,会向第三方开放,后续两家公司将在智能语音领域双方有新的动作。
此外,依图还联合华为发布“智能语音联合解决方案”,该方案基于依图语音开放平台及华为全栈全场景昇腾(Ascend)系列芯片和面向数据中心侧的Atlas 300 AI加速卡,也向第三方开放。
“我们始终认为,核心技术的突破,依然是当前破局中文语音识别发展的关键。”吕昊表示。
当下,AI产业链由基础层、技术层与应用层构成。同样,智能语音识别亦由这三层组成。基于大量数据的积累、深度神经网络模型的发展及算法的迭代优化,近年,语音识别准确率取得了不断的提升,外界也在各个巨头的测试结果中观察到了“媲美人类”、“与人相似”等字眼。
但语音识别领域一直存在两条红线:3%和15%。
版权保护: 本文由 沃派博客-沃派网 编辑,转载请保留链接: http://www.bdice.cn/html/12673.html