文/宇多田
先说个题外话。
今年夏天,可能没有哪部悬疑剧能比《轮到你了》更火。
这部被称为现实生活版“狼人杀”的日本悬疑电视剧,让全网都在跟着反应有点迟钝的男主一起在5层公寓里寻找连环杀人案凶手。
然而,也在默默追剧的技术宅们和我等科技屁民,对这部剧的关注点,稍微有那么一点偏差:
譬如,坐在我旁边计算机专业毕业的妹子,在看到剧里的理工男男二号对着电脑敲打代码一闪而过的屏幕时,默默点头表示:
“他的确在给男主做那个合成了妻子语音的AI软件(男主的妻子叫菜奈,因此这款软件叫菜奈AI,有点类似于换了语调的Siri),你看他正在编的就是一个日历的代码。”
“不过,你看他提过用 javascript 编,但人工智能要先用Python训练,或者C++优化¥%&*¥%……”(此处省略一万字)
被她发现的代码
而作为一名科技屁民,虽然还达不到技术宅的精神境界,但因为职业病,我对剧中的理工男“二阶堂”开发出的菜奈AI语音软件与AI犯人预测系统,也怀有很大的兴趣。
(当然,我严重怀疑AI犯人预测系统输入的数据量可能有点不够;另一个奇怪的点是剧情没演出菜奈AI软件制作者是如何获取菜奈的语音数据的)。
菜奈AI(上图),从界面就很好理解,这其实就是一个定制版Siri(语音助手)。
但之所以能让男主角每次都能对着它泪流满面(菜奈被杀),就是因为这个Siri完美合成了菜奈的说话音调和语气,像是一直在他身边。
实际上,单看合成声音这件事情,从技术角度来看并没有让人觉得多么神奇。
还记得科大讯飞在2016年发布的那段爆火的“奥巴马用中文预祝活动圆满成功”的视频吗?那时候就已经让大众充分认识到了语音合成的娱乐影响力。
当时的语音工程师们从网上下载了大量奥巴马网的演讲音频和视频素材,用神经网络对其进行分析,最终合成了声音和嘴型都非常匹配的假视频。
当然,这项技术最成功的应用场景,当属地图导航里的林志玲姐姐和郭德纲大哥。
但是这几天,百度地图等导航软件又突然赶着在十一假期到来之前,拿出这套并不新的技术做了一个产品设计上的“微创新”:
如果你似乎对导航里各路女神的声音完全无感了,没问题,不如…就用老婆或者父母的声音时不时“吓唬”一下自己好了。
就在前天App里默默上线的“定制个人导航语音”功能,让我严重怀疑他们的产品经理是受了《轮到你了》里菜奈AI语音软件的启发。
而我的第一反应,是对效果产生了严重怀疑。
因为整个语音的合成步骤异常简短,基本可以总结为一句话:
读20个句子,然后再等15分钟让系统自动合成。
既然等待时间长度可以接受,我最终决定,把所有版本都尝试一遍。当然,还有低龄儿童版本……我也试了。
为了遵守“要在特别安静环境下录制”“用普通话朗读,吐字清晰”等一堆附加条件,我只能钻进办公室的一个犄角旮旯里投入到录制环节……
读句子本身其实不难,但是如果你要在一个特别静的环境里字正腔圆地读出:
“警察叔叔,来检查每个人的车票”,“佩奇和乔治,证摆弄他的玩具”以及“熊大和熊二在喝蜂蜜”,“喜洋洋,快想个办法”……
请一定确保周围没人,你才不会有太多羞耻感,或者是方便“入戏”(整个状态需要一直“端着”,难道这就是黄渤的声音在导航里不对味的原因?)。
此外我们发现,虽然录制语音包有四个版本,但是电影版本的“台词”其实最不容易读好,大概是因为略长,而且个个像励志电影里的名言警句,读之前感觉自己要先积攒起“一身正气”。
实际上,假如你一开始不会觉得15分钟的语音合成训练效果能输出多么逼真的音效,那么这个结果绝对会高出你的预期;
但是,如果你觉得这15分钟模型训练时间可以完全复制自己的声音,那你也想多了。
这是我用推荐阅读版本、卡通版本、电影版本以及男声低龄儿童版录制的语音导航。其中,推荐版本与卡通版本的效果最好,与我自己的真实声音相比,相似度可以达到70%~80%。
不过可以明显听出,卡通版本的声音略微尖细和清脆,而且语速更快。