搜狗上线小程序“故事大王” 首次将个性化TTS技术落地到微信中

2019-06-19 16:40:00

来源：猎云网

近日，搜狗上线了一款名为“故事大王”的小程序，它基于搜狗知音引擎的语音合成能力，首次将个性化TTS技术落地到微信当中。用户根据提示，录制5分钟左右的简短音频后，“搜狗故事大王”小程序就会自动生成用户的个性化合成音色，小朋友就可以听到用父母声音讲述的童话故事。

这样一款实用的带娃利器是不是很神奇？那它到底是如何快速准确地定制用户个性化音色的？又是怎么用合成音色声情并茂地为小朋友讲故事的呢？

颠覆传统“机器音”，搜狗独家提供个性化TTS技术

在专业领域，技术员们把“文本文件向语音的实时转换”称为TTS功能。还记得“哪里不会点哪里”的点读机么？这个曾经风靡一时的儿童英语学习神器就应用了这款功能，点读笔扫描文本内容，再通过点读机转换成人声朗读出来。在其他诸如电子书阅读、语音导航、语音提示等领域，TTS功能的应用也十分广泛，但他们拥有一个共同的缺点，即只能实现文本向特定声音模板的转变，且声音质量较为呆板，机器感十足。

使用过“搜狗故事大王”的用户都知道，在该小程序上用户可以定制自己专属的个性化合成音色。然后就能随时随地的通过手机为小朋友讲故事了，听起来声情并茂、自然流畅，明显区别于以往的机器音。

这都得益于搜狗知音引擎独创的个性化TTS合成技术，与传统技术相比，“搜狗故事大王”具有高表现力，更趋于真人口音。此外，除了可以定制个性化声音，还能使用该声音实现任意文本的合成，搜狗是目前成功将两项技术进行完美结合并成功落地的公司。

依托个性化TTS技术，“搜狗故事大王”对用户录制声音的要求很低，不需要去专业录音室、不需要长时间录制。用户只需5分钟左右的操作，搜狗的后台技术模型就能自动精准排除噪点，完美复制原始声音的各项数据，合成专属定制的个性化音色。该合成音色的朗读效果与真人相似度极高，可以做到“以假乱真”的地步。

坚持创新，克服难关，个性化定制终实现

搜狗独家推出的个性化TTS技术，在技术研发层面具有很多的挑战。

首先，声音来源的清晰度直接影响后续音色的定制。但不可避免的是，日常生活中通过普通录音设备，很难收集到噪音小、音质清的声源。个性化TTS技术集成了搜狗知音引擎已有的信噪比检测、口语评测、识别、降噪、去混响、高稳定性声学参数提取与模型自适应、深度学习平台等多项前沿技术，并在此基础上进行了突破。最终，“搜狗故事大王”终于交出一份满意的答卷，让用户无需去专业录音室录音，在卧室、会议室和甚至车内等常见的环境下就可以进行声音采集。

其次，如何为机器声音赋有情感神经也是一大技术难点。人类拥有丰富的语言情感表达能力，是因为人的大脑皮层中有140亿个神经元，模拟这样一个人工智能大脑是不可能的。但是搜狗研发团队找到了另一个开发途径，一款基于人工智能的新技术——多目标学习技术。该技术可以同时学习三个目标对象，分别是表征音色的“说话人编码器”、表征内容的“文本编码器”和表征表现力的“风格编码器”,再经过模拟融合进行表现力迁移，为呆板的合成声音注入情感，使其听起来更真实。最后，搜狗还采用了国际领先的波形合成模型WaveRNN，让最终输出的音质拥有更好效果。

至此，“搜狗故事大王”这款小程序可以完美实现用户声音的个性定制，并通过这个AI合成声音声情并茂地为小朋友讲故事了。“故事大王”作为搜狗知音引擎在人工智能领域开发出的又一创新应用，除了为当代人的日常生活提供了更大便捷性，也为智能科技研究领域提供了新选题，比如为未来人工智能机器人的开发提供语言系统搭建的参考，让机器人言谈更富情感，影视剧中的人机共享智能未来将成为现实。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如有侵权行为，请第一时间联系我们修改或删除，多谢。