AI进入无障碍时代：手语识别翻译的应用，究竟意味着什么？

05-17 IT文章

图片来源@视觉中国

文 | 脑极体

相信在人们的印象里，AI都是一个属于“大多数”的技术门类。

所谓大多数，第一意味着相关数据量大、便于累积，适用于AI对海量数据极度依赖的特性；第二意味着应用场景广泛、便于变现回收成本，适用于AI研发的高门槛投入。

目前我们身边常常出现的人脸识别、语音交互等等，其实都符合以上这些特征。不过这并不意味着，属于“少数派”的AI是一片空白。

昨天是“全球无障碍宣传日”，我们把目光投向于那些能够消弭“少数与多数”区别的技术发展，例如服务于听障人群的手语识别，就是一个典型的例子。

你我不懂的手语，为什么AI也很难读懂？

手语是用手势比量动作，根据手势的变化模拟形象或者音节以构成的一定意思或词语，是听障人群独有的一种沟通方式。但这种沟通方式虽然能让听障人士之间彼此沟通，或让理解手语的普通人与之沟通，但仍然不能满足听障人士与普罗大众之间的交流需求。

这便意味在一些社会公共空间之中，例如政务场景或服务业场景，听障人士可能都会遇到一些不便。

而AI，恰好成为了一种解决方案。

我们在一些软件中，已经开始应用到了AI的手势识别能力，像是拍照时“比心”来触发一些AR特效。将这种对于手势的捕捉，和手势语义对应起来，不就能实现对于手语的翻译和生成了吗？

这一逻辑是正确的，可从逻辑正确到应用可行，却还隔着一段不短的路程。

首先，手语的表达有一定的特殊性，想进行捕捉并不容易。

我们知道在“比划手势”这种行为上，本来就不存在绝对的精准度，加之一些手语词汇的表达非常接近，而且手语表达通常是以句子为单位，词与词之前不会有明显的间隙。以往手势识别中利用前置摄像头捕捉的方式，基本是不可行的。

于是很多科技和团队给出的解决方案是加以外设，例如中科大和微软推出了基于Kinect的手语翻译系统，加州大学曾经推出过的手语识别手套等等就是这样。可这些外设要么便携程度低，要么造价昂贵，推广起来有很大的困难。

同时，手语表达同样也有国别性和地域性，在模型通用性上存在着困难。

手语中有“文法手语”和“自然手语”两个概念，文法手语既是通用的普通话，至于自然手语则如同方言一般，在国别、地方甚至城市之间都有着不小的差异。这也造成了手语数据收集、标注会是一项成本高、工作量大的事情。

例如亚马逊曾经提出过，对智能音箱Alex进行改造可以使其翻译出一些简单的信号。可是因为缺乏大规模的训练数据集，目前这一功能只能识别出一些简单的美国手语，停留在实验室阶段。

手语破题没有秘法，AI产业本该平权

虽然探索艰难，但科技企业们和学界还是不断在手语AI上取得成果。例如腾讯优图实验室推出的 “优图AI手语翻译机”、爱奇艺推出的AI手语主播等等，都在手语AI的应用上取得了不小的进展。

手语AI的突破可以分为两条路线，一方面是手语AI本身技术的进展，另一方面是应用场景的突破。

在手语AI技术本身上，可以分为识别模型和数据集两个解决路径。在数据集上，可以像优图一样，通过和社会相关机构以及听障人士的接触自建手语识别数据集，并且针对手语表达的地方性差异，做出表达习惯和速度上的多样性拓展。

至于识别模型上，业内也有全新的算法搭建概念，例如通过2D卷积神经网络和3D卷积神经网络分别提取手势中静态和动态的信息，经由综合处理来提升视频识别效果，彻底摆脱其他传感器的桎梏。同时针对手语表达的整句化的现象，在视频帧的最后加入了词级信息挖掘，对特征提取器提出的信息进行核验，进一步去确定手势对词语表达边界，除了提升识别精准度以外，还能提升对自然手语中地域表达的总结能力。在此基础上，还可以算法模型中引入了上下文理解能力，以便于面对更加复杂的手语识别翻译需求。

不过技术虽然得以提升，应用场景端仍然会受到一些限制。例如手语识别可能会依赖较强大的算力，短时间内很难便携化、消费化。但完全可以通过和政府的合作，让手语识别进入一些公共服务场景。或者像爱奇艺一样，从手语生成方面入手，同样也能帮助到听障人士。

版权保护: 本文由沃派博客-沃派网编辑，转载请保留链接: http://www.bdice.cn/html/59507.html

上一篇：凤凰网5G频道正式上线：全渠道传播，打造最专业的行业传播平台
下一篇：向海龙离开，对百度是好事

AI进入无障碍时代：手语识别翻译的应用，究竟意味着什么？

推荐文章

热门文章

标签

友情链接

关于本站

联系我们

特别鸣谢