对话微软小冰武威:聊天机器人的演进之路
原标题:对话微软小冰武威:聊天机器人的演进之路
智东西(公众号:zhidxcom)
文 | 寓扬
聊天机器人一直都是一个性感的话题,电影《Her》中那个风趣又善解人意的虚拟恋人,可谓是我们对于人工智能技术的美好遐想,但要达到那一步对于我们还是一场长途跋涉。
但这丝毫不影响当下聊天机器人的火热,尤其是随着近两年智能音箱的爆发。在AI的舞台上,微软小冰是一个明星人物,凭借着“邻家女孩”温柔可人般的形象,以及良好的交互体验,可谓风靡万千少男少女。
自2014年诞生以来,在微软(亚洲)互联网工程院诸位技术大牛的辛勤培育下,目前已经成长至第六代,从最初的闲聊走入更多应用场景,从大家熟悉的主持节目、唱歌、讲故事、写诗,到新闻评论、金融、智能家居、手机助手等都有它的踪影。
在近期举办的自然语言处理领域的世界顶级会议之一EMNLP (Empirical Methods in Natural Language Processing )上,作为6场Tutorial分享之一,微软小冰团队总结了他们在聊天机器人领域的探索。
▲微软小冰首席科学家武威博士
近期,智东西来到微软(亚洲)互联网工程院,与微软小冰首席科学家武威博士围绕聊天机器人技术进行一场深入沟通。透过微软小冰背后人机交互技术的演进,我们看到了小冰由最初单一模态的文字回复升级到如今可以用语音、文字、图像等多模态的交互,其背后对话模型也由检索模型升级到生成模型、共感模型,小冰由最初静态、被动的聊天机器人变成了一个动态、交互性更强的虚拟助手。
一、从单一模态到多模态演进
四年前,刚诞生的微软小冰只能在微信中被动的回复用户的文字消息,而如今它已经成长到第六代,逐渐具备了语音、视觉的能力;在交互能力上,也实现了从被动回复到主动交互的转变;在与6.6亿人类用户的交谈中,小冰的交互体验越来越好。
武威就微软小冰的技术迭代谈道,最开始小冰是一个单一模态(文字)的聊天机器人,等到了第三代的时候,小冰有了视觉感官。当时用户发送一张照片给小冰,小冰就可以“看”到这张照片,并基于这张照片跟用户进行聊天。
而随着小冰升级到第五代后,它有了实时视觉感官,此时小冰拥有了对视觉信息的动态感知能力。比如当你从小冰面前走过,向它挥手,它可以感知到这些动态的信息并作出回应。
在第六代小冰中,微软小冰团队又将实时视觉感官、听觉、全双工语音以及对话引擎进一步融合,形成一个交互能力更强的更智能的“物种”。
而这背后正是多模态交互技术,也是当下业界的一个研究热点。武威表示,“多模态一定是未来人工智能研究的一个方向。”多模态跨过了自然语言,是一种更加贴近人的交互方式。因为人的交互本身,无论输入还是输出都是多模态的,而做人工智能,我们本身就希望能模拟人的行为。
武威认为,从自然语言的角度来讲,多模态技术还处在行业的探索与发力期。目前大家都意识到了多模态的重要性,但是同时又缺乏相应的数据进行研究。目前无论是学界还是业界也都在进行一些数据集的建设。
小冰在多模态上也发展的较为靠前,目前微软小冰团队已经同构多感官融合的架构实现了一些多模态交互,比如你输入一段文字/语音/图片,小冰会根据它看到或听到的进行回复,而回复的内容可能是文字、语音或者一个表情等,武威认为这种交互已经是一个近似多模态的场景。
像目前的智能音箱,主要以语音交互为主,未来人机交互又是否会以一种模态为主模态呢?武威认为,这一问题要结合具体的交互场景来判断。但如果从人类交互的角度来讲,可能某一时刻,某一种模态扮演更加重要的作用,但基本上人所有模态都的需要的,所有模态都影响人的感知。
二、从回复到交互 三种模型的迭代
最初微软小冰团队的目标是,无论用户给出怎样的输入,小冰都能够给出一个不错的回复,并且尽可能的将小冰与用户之间的对话维持下去。或许正是基于这样的目标,小冰在模型上经历了从检索模型到生成模型再到基于生成模型的共感模型,自身交互能力也经历了从被动回复到动态交互的演进。
在小冰诞生以前,搜索引擎的技术已经相当成熟,微软在做小冰时,将微软在Bing搜索引擎中积累的技术能力应用到聊天机器人中,就形成了检索模型。
版权保护: 本文由 沃派博客-沃派网 编辑,转载请保留链接: http://www.bdice.cn/html/12196.html