大市中国 > 创投 >

微软推TTS系统有声书成主要场景

2021-08-07 19:28:02

来源：互联网

微软推TTS系统有声书成主要场景

2018年10月，微软发布了基于深度神经网络的文本到语音(text-to-speech，以下简称“TTS”)分析运行系统。

该技术发布一年，在一些场景进行了落地，其中帮助视障人群成为非常关键的应用场景。

在过去，微软和盲人公益组织红丹丹视障文化服务中心(以下简称“红丹丹”)进行了合作，红丹丹将目前盲人群体所缺乏的资源书籍(百科知识、文学类、教材等)挑选出，微软通过神经网络合成语音“晓晓”来合成有声书。

10月15日是国际盲人节，上述合成的有声书在这天上传至心目图书馆——一个云端的图书馆——可以接触到全国105所盲校的学生。

在此之前的10月9日，微软亚洲互联网工程院人工智能语音组资深产品总监丁秉公在接受《中国经营报》在内的媒体记者采访时介绍称，这样的书原本需要人来录音，要找到录音的人和录音棚，耗时耗力，如果要录高质量的声音需要花费更多的成本和时间。但是如果通过TTS合成方式，可以7乘24小时合成，只要有文本内容，就可以源源不断地输出有声内容。“这打破了有声内容生产的壁垒。这个对视障人士群体来说特别有意义，虽然他们可以在市面上听到一些有声书，但是数量远远少于文本数量，如果我们可以自动地把文本转化成有声，可以极大地丰富视障朋友有声阅读的来源。”

成本更低

在具体的成本上，据微软方面介绍，一本100页左右的纸质书籍，译成盲文书籍需要400~500页，制作成本在80~100元左右，成本相对较高。而通过TTS合成的有声书，平均一本的价格在9000元左右。但一本有声书做出来之后进行云端传输，覆盖到全国的盲校1万多个学生，可能一本书成本平摊下来才不到1元钱，且可以做到无限量广域传播。

市面上充斥着各式各样的有声书，该项目合成的有声书相比前者有什么区别?

对此，红丹丹执行主任曾鑫对记者解释，这些有声书根据盲校孩子和老师的需求来做，不是市面上已有的名著或者通俗小说类，而更多聚焦在目前市面上缺少的针对视障学生学习类或者成长类的有声书籍。“这种书在市场上很难找到有声版甚至是电子版，所以这方面很有需求。另外，我们也会根据青年人的学习需求，制作法律、公务员的考试教材等。市面上很难买到这类有声教材，我们会通过这样的技术手段帮学生以最快速度完成转换，形成有声书。”曾鑫说道。

据微软人工智能女声晓晓语音产品负责人刘越颖介绍，该技术目前可以提供两种场景下的服务：一种是实时的合成，基本上是毫秒量级的，几百毫秒就能够反馈，一般用在智能对话、语音助理等场景。另一种是非实时的合成场景，比如一整本有声书的长文本合成，大概需要总音频时长的1/3。一个小时的音频，可能十几分钟二十分钟就能合成出来，如果是人工录音，可能录制一个小时的音频，反复出错，需要不断地去录和重复，三个小时才能录出来一个小时的音频成品，而机器十几分钟就可以，这就将人力三个小时的录音节省到十几分钟，效率大大提升。

曾鑫也进行了补充：“做有声书的成本上，我们作为一个公益机构，可能不像商业机构。需要动用一些志愿者的资源来做，一本有声书的录制，对于我们而言最快的速度也需要花三个月才能完成。时间成本会很长，还包括人员的协调成本，现在用的这个技术大概几十秒钟或几分钟就能完成一本有声书的制作，这个成本肯定是没法比的。”

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如有侵权行为，请第一时间联系我们修改或删除，多谢。