从小冰AI唱戏说起：微软“虚拟歌姬”的钱景与困境

05-16 IT文章

漆黑的大厅中，一个年仅5岁的女孩歌声在回荡，而台下数十个中年男女沉浸其中，不时露出惊讶神情，暗自赞叹歌声宛如天籁，不负昭华。

这并不是中国好声音的选拔现场，这是微软举办的一场特殊“演唱会”，听众皆是科技媒体的专业编辑与记者，而演唱者则是微软小冰——一个诞生于2014年的对话式人工智能。

一、小冰开腔：她也许是最接近人类的一位歌手

单单用文字无法让大家感受到小冰的歌喉，但前方的编辑听完后后用颤抖的手在QQ上发回两句话：

“震惊了！”

“超越人类了！”

随后笔者抱着怀疑的态度试听了一下小冰演唱片段，片段分为3种唱腔，一种普通歌声，另一种是难度较高的戏腔，第三种是日语唱腔。

从小冰AI唱戏说起：微软“虚拟歌姬”的钱景与困境

首先是普通唱腔，片段中由于背景配乐仅有吉他/钢琴，所以女声较为突出，接近清唱，极为考验演唱者的功底。在小冰的演绎下，歌声中的细节十分丰富，其中唱到一些需要咬牙发音的部分（例如“轻轻”）时，隐约可以感觉到齿声和口腔共振，在每句歌词之间，可以听到较为明显的换气声，高音部分也能明显感觉到嘴中气息的流动。

从听感上讲，小冰的声音流畅自然，较为完整地还原了人类在唱歌时的特有的细节与表现，极少有特别明显的“电子音”，尽管未达到绕梁三日的水准，但也称得上是相当出色的拟人表现，普通人很难直接分辨出唱歌的是一位“虚拟歌姬”。

从小冰AI唱戏说起：微软“虚拟歌姬”的钱景与困境

戏腔笔者了解不多，不过小冰的表现依然令人印象深刻，其演唱的片段是广为人知的《新贵妃醉酒》，戏腔中可以明显听到很浓重的口水音与鼻音，因为戏腔每句发生较长，换气声也更为明显。

至于日语唱腔，笔者在听完第一句之后就“震惊了”，这并非过誉，如果说中文唱腔中你还能隐约听到“电子音”，在日语唱腔中这个瑕疵就完全消失了，整个日语唱腔片段表现堪称完美，在不提示的情况下，笔者打包票你100%听不出来这是一位“虚拟歌姬”在演唱，这里我建议大家还是亲耳听一下。

演唱片段听完之后，笔者的综合评价：8/10，小冰也许是最接近人类的一位AI歌手。

二、难以置信的AI：微软如何调教这位年仅5岁的歌唱家？

小冰让人“震惊”的背后，则是堪称黑科技的微软V5版音乐演唱模型。

微软表示微软小冰基于深度神经网络的歌唱模型，已顺利完成V5新版本的研发。新的V5模型实现了重大突破，它使微软小冰第一次能够像人类歌手一样，使用充沛的“中气”来烘托演唱，从而将人工智能虚拟歌声质量提升至新的高度。

从小冰AI唱戏说起：微软“虚拟歌姬”的钱景与困境

由于V5模型过于逼真，在演示时，微软甚至不得不专门提醒现场媒体：“我必须提醒大家听的时候注意，这不是人，没有这么一个人。”

此外，该模型不仅限于优化微软小冰的声音，还支持对任何人类歌手的声线进行学习、模拟和建模，演绎与再现歌手们巅峰状态下的演唱水平。

V5新模型还具有许多其他技术特征。例如实现了多声部的合成技术，使人工智能歌手可以在不同声部间自然切换，用多个声音来源组成新的虚拟歌手等。建模过程中，所需的训练数据量较上一个版本减少70%。从技术角度，新模型可针对任何人声建模，形成丰富多彩的人工智能歌手阵营。

三、钱景与困境：再聪明的AI也要赚钞票

微软是一家商业公司，对利润自然有着明确的追求，但自2014年诞生起，微软尚未公布过小冰诞生5年来的营收情况，不过今天小冰的歌喉的确为她打开了一扇门。

从小冰AI唱戏说起：微软“虚拟歌姬”的钱景与困境

“虚拟歌姬”并不是一个新鲜玩意儿，严格来讲，这是一个有着十数年行业积累的新兴职业，如果小冰真的要跨入这条路，初音miku就是她所能触摸到的天花板。

“虚拟歌姬”的开创者之一初音miku，自2007年诞生，在2010年举行第一场“39感谢祭”演唱会时，2500张演唱会门票在瞬间被抢购一空，演唱日当晚更有超过3万名忠实拥簇者通过付费网络直播观看了整场演唱会。

版权保护: 本文由沃派博客-沃派网编辑，转载请保留链接: http://www.bdice.cn/html/59467.html