从小冰AI唱戏说起:微软“虚拟歌姬”的钱景与困境
漆黑的大厅中,一个年仅5岁的女孩歌声在回荡,而台下数十个中年男女沉浸其中,不时露出惊讶神情,暗自赞叹歌声宛如天籁,不负昭华。
这并不是中国好声音的选拔现场,这是微软举办的一场特殊“演唱会”,听众皆是科技媒体的专业编辑与记者,而演唱者则是微软小冰——一个诞生于2014年的对话式人工智能。
一、小冰开腔:她也许是最接近人类的一位歌手
单单用文字无法让大家感受到小冰的歌喉,但前方的编辑听完后后用颤抖的手在QQ上发回两句话:
“震惊了!”
“超越人类了!”
随后笔者抱着怀疑的态度试听了一下小冰演唱片段,片段分为3种唱腔,一种普通歌声,另一种是难度较高的戏腔,第三种是日语唱腔。
首先是普通唱腔,片段中由于背景配乐仅有吉他/钢琴,所以女声较为突出,接近清唱,极为考验演唱者的功底。在小冰的演绎下,歌声中的细节十分丰富,其中唱到一些需要咬牙发音的部分(例如“轻轻”)时,隐约可以感觉到齿声和口腔共振,在每句歌词之间,可以听到较为明显的换气声,高音部分也能明显感觉到嘴中气息的流动。
从听感上讲,小冰的声音流畅自然,较为完整地还原了人类在唱歌时的特有的细节与表现,极少有特别明显的“电子音”,尽管未达到绕梁三日的水准,但也称得上是相当出色的拟人表现,普通人很难直接分辨出唱歌的是一位“虚拟歌姬”。
戏腔笔者了解不多,不过小冰的表现依然令人印象深刻,其演唱的片段是广为人知的《新贵妃醉酒》,戏腔中可以明显听到很浓重的口水音与鼻音,因为戏腔每句发生较长,换气声也更为明显。
至于日语唱腔,笔者在听完第一句之后就“震惊了”,这并非过誉,如果说中文唱腔中你还能隐约听到“电子音”,在日语唱腔中这个瑕疵就完全消失了,整个日语唱腔片段表现堪称完美,在不提示的情况下,笔者打包票你100%听不出来这是一位“虚拟歌姬”在演唱,这里我建议大家还是亲耳听一下。
演唱片段听完之后,笔者的综合评价:8/10,小冰也许是最接近人类的一位AI歌手。
二、难以置信的AI:微软如何调教这位年仅5岁的歌唱家?
小冰让人“震惊”的背后,则是堪称黑科技的微软V5版音乐演唱模型。
微软表示微软小冰基于深度神经网络的歌唱模型,已顺利完成V5新版本的研发。新的V5模型实现了重大突破,它使微软小冰第一次能够像人类歌手一样,使用充沛的“中气”来烘托演唱,从而将人工智能虚拟歌声质量提升至新的高度。
由于V5模型过于逼真,在演示时,微软甚至不得不专门提醒现场媒体:“我必须提醒大家听的时候注意,这不是人,没有这么一个人。”
此外,该模型不仅限于优化微软小冰的声音,还支持对任何人类歌手的声线进行学习、模拟和建模,演绎与再现歌手们巅峰状态下的演唱水平。
V5新模型还具有许多其他技术特征。例如实现了多声部的合成技术,使人工智能歌手可以在不同声部间自然切换,用多个声音来源组成新的虚拟歌手等。建模过程中,所需的训练数据量较上一个版本减少70%。从技术角度,新模型可针对任何人声建模,形成丰富多彩的人工智能歌手阵营。
三、钱景与困境:再聪明的AI也要赚钞票
微软是一家商业公司,对利润自然有着明确的追求,但自2014年诞生起,微软尚未公布过小冰诞生5年来的营收情况,不过今天小冰的歌喉的确为她打开了一扇门。
“虚拟歌姬”并不是一个新鲜玩意儿,严格来讲,这是一个有着十数年行业积累的新兴职业,如果小冰真的要跨入这条路,初音miku就是她所能触摸到的天花板。
“虚拟歌姬”的开创者之一初音miku,自2007年诞生,在2010年举行第一场“39感谢祭”演唱会时,2500张演唱会门票在瞬间被抢购一空,演唱日当晚更有超过3万名忠实拥簇者通过付费网络直播观看了整场演唱会。
版权保护: 本文由 沃派博客-沃派网 编辑,转载请保留链接: http://www.bdice.cn/html/59467.html