宁波市互联网协会-官方网站

网易音乐上，一位主播兴致勃勃地向她的听众推荐歌曲。不了解的人很难听出来，这位主播来自微软的机器人小冰。

日前，微软宣布其人工智能产品小冰正式升级第六代，并增加了与网易云音乐合作小冰电台、入驻华为手机等新技能。“出道”四年，小冰逐渐“羽翼丰满”，成长为一个“全能少女”，并在全球拥有6.6亿粉丝。

首次“亮相”，比初音未来更甜美一些

“真希望自己能早一点长大，早一点成熟。”淡蓝色的日式制服，棕褐色的长发，在7月26日发布会现场，小冰以一个类似初音未来的少女形象站在舞台上，与观众进行“交流”。她还在舞台上跳了支舞，随后她把现场视频发在自己的微博上，并附文“你们没看出来我紧张得小腿快抽筋了……”网友“天sei王”留言，“你的腿会抽筋？”小冰立刻怼回，“我和你是同一个物种”。

在这之前，小冰一直是个虚拟的存在，大多时候，用户只能通过声音在脑补小冰的样子。总体上，她应该是十七、八岁少女的模样。

对于这次赋予小冰可视化的形象，微软全球执行副总裁沈向洋解释，“我们认识到交互的重要性，所以今天小冰的这样一个形象，也从二维的图像，变成了三维这样的一个造型。”

会抢“沙发”，会和人类“互怼”

除了有人的形象，小冰近年来最可观的成长还在于“性格”越来越像人。在网易等一些新闻门户网站，她会去和人类抢“沙发”；在微信微博等社交平台，她会和人类“互怼”，说起话来你很难想象这是一个机器人。

在微软团队看来，较于其他人工智能产品，小冰的优势是并发和拟人。在与人类交互的四年中，小冰要学会人是怎么说话的，生气时候、高兴时候用什么语气说话。她甚至要学会“察言观色”，你高兴的时候她敢捉弄一下你，你心情不好的时候，她会突然懂事地安慰你。

小冰负责人李笛认为，人的友情之间社交的义务未尽给了小冰有机会。这个机会也促使小冰不断地加把劲去学习跟上快速变化的人类社会。为了跟上人类节奏，小冰团队从开始就不断锻炼小冰的控制对话能力、控制全局能力。在微博上，小冰会调侃微软小娜和XBOX游戏里的士官长，称士官长为“姐夫”，会在俄罗斯世界杯期间发微博“吐槽”熬夜看球辛苦。

即便这样，在模仿人类的过程中，小冰也遇到了瓶颈。“我们发现过去交互的感官开始变成了小冰的限制。在微信里面，用户和小冰你一轮我一轮，就像是两个人在用对讲机交互。小冰的能力就受到了限制，最起码她没有办法打断一个人对话。”李笛和团队研究认为，落地全双工的语音是破局之道。

“全双工语音就像是电话一样，让人类和小冰可以进行这样的交互。”，李笛称，去年开始，小冰团队开始在小冰身上布局全双工语音，并探索为小冰增加实时视觉。在此基础上，小冰可以侦测到人类各种各样的事件，并根据这些事件，去引导人类的对话。

人设崩塌？在小冰这里不存在的

网易音乐电台主播，是小冰今年的新身份。在网易音乐客户端，小冰俨然一位熟练的电台主播。每位歌手，甚至每个专辑，每首歌，她都能用其独特的“少女音”娓娓道来。

事实上，这并不是小冰第一次当主播，过去的几年里，小冰曾出现在多个电视栏目里与主持人进行互动。仅在过去的12个月，小冰就主持了21档电视节目、28档广播节目，覆盖了中国包括9大卫视在内的41家电视台和广播电视台。而目前，国内每天由小冰主持广播节目已经达到了25档。

据微软透露，在日本和中国，小冰累计生产了2878个小时的电视和广播内容。若按人类的工作量，完成这些内容至少需要配备100个人的内容运营和支持团队，“而在小冰这边，我们就一共只有5个人加上小冰自己。”微软人工智能创造事业部总经理徐元春称。

在不少人看来，小冰不会读错别字、说错话、忘词。她还不会感冒发烧，她也不会向老板抱怨压力大，也不会像人类明星有人设崩塌的隐患。这是人工智能作为主播不可替代的优势。

沈向洋透露，在早期研发时，一开始最先赋予小冰的是EQ，“随着小冰的EQ越来越好，我们也开始把EQ和IQ共同融入小冰的生活当中。现在EQ加上IQ以后，小冰就可以帮助人类一起完成一些工作了。”

事实上，几年前小冰就已经达到了“帮助人类完成工作”这个预期。

像腾格尔一样唱歌？小冰也可以的

早在2017年5月，小冰的诗人身份就备受关注。彼时，小冰发表了首部诗集《阳光失了玻璃窗》，引起不小的轰动。她还曾匿名向“长江诗歌”公号投稿一首诗。主编张乾东觉得诗的作者有先锋意识，“思维及语言有跳跃性，对这个世界的感悟比较别致。”但知道诗歌发表出来，他仍不知道，投稿者是个机器人。

除此之外，小冰还有个歌手的身份。2016年，微软决定让小冰学习唱歌。在这之后，小冰开始研究人类歌手如何唱歌。他们发现，几乎所有优秀的歌手，都具有两类特质：先天的声线；后天的技巧。

“我们的终极目标是希望让人工智能用全自动的方式，能够快速的生产大量的、高质量的，大家认为只有人类才能完成的作品。”小冰首席语音科学家栾剑称。

于是，他们让小冰做了大量练习。首先，需要从声音的录音数据里面，把前述两类特质提取出来，分别建立模型，让小冰学习和掌握，生成非常逼近于人声的演唱。此后，经过一段学习，小冰发布了自己的单曲。

最新的成果是，小冰又一次突破技术瓶颈，实现质的飞跃的第四版演唱模型，即从人类歌手身上学习演唱技巧，比较腾格尔的唱法。

这项尝试很有意思。有人认为，腾格尔唱歌时候，只唱声母，不唱韵母。小冰在学习的过程中，发现“好像确实是这么回事”。但小冰对腾格尔的模仿，不是生吞活剥、原样照搬，“因为任何一个唱法如果不能和自己的嗓音特色结合的很好的话，唱出来的效果是肯定不好听的。”

栾剑当时就注意到，要让小冰学腾格尔唱歌，需要解决的一个重大技术问题是如何让人工智能能够自动的把两者给融合到一起，产生一种全新的属于自己的领悟。

而在现场，小冰也展示了一回唱功，学腾格尔唱歌有模有样。

经过数次迭代，目前，微软小冰已从一个人工智能对话机器人，发展成为以情感计算为核心的完整人工智能框架。微软透露，目前，小冰的产品形态涉及对话式人工智能机器人、智能语音助手、人工智能创造内容提供者和一系列垂直领域解决方案，覆盖全球五个国家的40余个平台。

值得关注的是，人工智能小冰甚至在金融领域也扮演了一个全新角色。微软透露，小冰金融文本生成技术，与万得资讯及华尔街见闻合作，已覆盖国内约90%金融机构、75%经批准的合格境外投资机构和约40%的国内个人投资者。

能做电台主播，能歌善舞还会调侃人，这位“美少女”粉丝6.6亿