搜狗上线小程序“故事大王” 首次将个性化TTS技术落地到微信中
近日,搜狗上线了一款名为“故事大王”的小程序,它基于搜狗知音引擎的语音合成能力,首次将个性化TTS技术落地到微信当中。用户根据提示,录制5分钟左右的简短音频后,“搜狗故事大王”小程序就会自动生成用户的个性化合成音色,小朋友就可以听到用父母声音讲述的童话故事。
这样一款实用的带娃利器是不是很神奇?那它到底是如何快速准确地定制用户个性化音色的?又是怎么用合成音色声情并茂地为小朋友讲故事的呢?
颠覆传统“机器音”,搜狗独家提供个性化TTS技术
在专业领域,技术员们把“文本文件向语音的实时转换”称为TTS功能。还记得“哪里不会点哪里”的点读机么?这个曾经风靡一时的儿童英语学习神器就应用了这款功能,点读笔扫描文本内容,再通过点读机转换成人声朗读出来。在其他诸如电子书阅读、语音导航、语音提示等领域,TTS功能的应用也十分广泛,但他们拥有一个共同的缺点,即只能实现文本向特定声音模板的转变,且声音质量较为呆板,机器感十足。
使用过“搜狗故事大王”的用户都知道,在该小程序上用户可以定制自己专属的个性化合成音色。然后就能随时随地的通过手机为小朋友讲故事了,听起来声情并茂、自然流畅,明显区别于以往的机器音。
这都得益于搜狗知音引擎独创的个性化TTS合成技术,与传统技术相比,“搜狗故事大王”具有高表现力,更趋于真人口音。此外,除了可以定制个性化声音,还能使用该声音实现任意文本的合成,搜狗是目前成功将两项技术进行完美结合并成功落地的公司。
依托个性化TTS技术,“搜狗故事大王”对用户录制声音的要求很低,不需要去专业录音室、不需要长时间录制。用户只需5分钟左右的操作,搜狗的后台技术模型就能自动精准排除噪点,完美复制原始声音的各项数据,合成专属定制的个性化音色。该合成音色的朗读效果与真人相似度极高,可以做到“以假乱真”的地步。
坚持创新,克服难关,个性化定制终实现
搜狗独家推出的个性化TTS技术,在技术研发层面具有很多的挑战。
首先,声音来源的清晰度直接影响后续音色的定制。但不可避免的是,日常生活中通过普通录音设备,很难收集到噪音小、音质清的声源。个性化TTS技术集成了搜狗知音引擎已有的信噪比检测、口语评测、识别、降噪、去混响、高稳定性声学参数提取与模型自适应、深度学习平台等多项前沿技术,并在此基础上进行了突破。最终,“搜狗故事大王”终于交出一份满意的答卷,让用户无需去专业录音室录音,在卧室、会议室和甚至车内等常见的环境下就可以进行声音采集。
其次,如何为机器声音赋有情感神经也是一大技术难点。人类拥有丰富的语言情感表达能力,是因为人的大脑皮层中有140亿个神经元,模拟这样一个人工智能大脑是不可能的。但是搜狗研发团队找到了另一个开发途径,一款基于人工智能的新技术——多目标学习技术。该技术可以同时学习三个目标对象,分别是表征音色的“说话人编码器”、表征内容的“文本编码器”和表征表现力的“风格编码器”,再经过模拟融合进行表现力迁移,为呆板的合成声音注入情感,使其听起来更真实。最后,搜狗还采用了国际领先的波形合成模型WaveRNN,让最终输出的音质拥有更好效果。
至此,“搜狗故事大王”这款小程序可以完美实现用户声音的个性定制,并通过这个AI合成声音声情并茂地为小朋友讲故事了。“故事大王”作为搜狗知音引擎在人工智能领域开发出的又一创新应用,除了为当代人的日常生活提供了更大便捷性,也为智能科技研究领域提供了新选题,比如为未来人工智能机器人的开发提供语言系统搭建的参考,让机器人言谈更富情感,影视剧中的人机共享智能未来将成为现实。