致敬单田芳,喜马拉雅用AI语音让已故大师声音重现
“听众朋友们,你们好。从今儿个,由我为大家播讲悬疑小说,《江湖消亡史:北平暗夜》。这个故事发生在民国十几年的北京城里.......”
今年9月11日是一代评书大师单田芳先生逝世三周年忌日。三年前,无数人感叹世上再无“下回分解”,而如今,他的“声音”在喜马拉雅再次响起,“书接上回”重现江湖。
近日,在北京单田芳艺术传播有限责任公司授权下,喜马拉雅用语音合成 (TS: Text-to-speech)技术完美还原单田芳先生的声音,并首次将单田芳先生的AI合成音应用于六部风格各异的书籍,用单式评书腔调,全新演绎听众耳熟能详的经典之作。单田芳先生之子单瑞林评价,“听到TTS声音,心魂间猛然一阵,仿佛父亲又回到这个世界。”
书接上回
单田芳先生是我国著名评书艺术表演大师,也是国家级非物质文化遗产传承人。他从艺半个多世纪以来,共录制、播出了《隋唐演义》、《三侠五义》、《乱世枭雄》、《白眉大侠》等100余部共计超过12000余集广播、电视评书作品,在全国500多家电台、电视台都播出过,节目时间约6000余小时,整理编著17套28种传统评书文字书稿。
单田芳评书已然成为中国传统文化的一个重要符号。他的书迷遍布大江南北,上至老人,下至孩童,无不喜欢他的评书。在民间甚至有着“凡有井水处,皆听单田芳”的说法,即使在今天,如果你坐上一辆北方的出租车,司机可能还在听他的评书节目。
本次推出的“单田芳声音 AI 重现系列专辑”中,既有直击泪点、奇人异事道尽人生悲欢的武侠小说——赵晨光的《江湖消亡史:北平暗夜》;也有传达时代脉动的纪实文学——陈廷一的《毛氏三兄弟:三兄弟与共和国奠基》;还有时下流行、故事情节曲折奇特的推理小说——紫金陈的《无证之罪》;更有延续单老生前未完成的的评书经典——宫白羽的《十二金钱镖》……
喜马拉雅和北京单田芳艺术传播有限责任公司的合作由来已久,喜马拉雅已上架80余张单田芳先生评书专辑,包括超5000条声音。而这些专辑在喜马拉雅也一直深受用户喜爱,多张评书专辑长期位列喜马相声评书热播榜前列,例如,《乱世枭雄》在喜马拉雅的播放量高达23.6亿,《白眉大侠》播放量高达19.7亿。
为致敬单老,传承文化,喜马拉雅还开启了“书接上回——新评书传承计划”,希望借此能让越来越多的评书爱好者和青年评书演员,参与到新评书的创造中,丰富和传承评书这份非物质文化遗产。
完美复现
时隔三年,能够再次听到那标志性的“云遮月”嗓音,得益于喜马拉雅智能语音实验室对单田芳先生声音的潜心探索和研发。为了能最大程度保留单老那苍劲、沙哑的独特嗓音以及情感充沛的评书腔调,喜马拉雅智能语音实验室下了不少功夫。
喜马拉雅智能语音实验室长期专注于语音合成、识别、语音信号处理、编解码以及智能音效的研究和开发,是喜马拉雅的核心部门。
为了重现单老的声音,向传统艺术致敬,喜马拉雅的智能语音实验室不仅完美复现了单老苍劲、沙哑的“云遮月”式独特嗓音,就连他那情感充沛、起伏跌宕的腔调也一并保留了下来。当那个与单田芳先生本人声音极其相似、近乎于本尊的AI合成音自然流畅地说起评书时,昔日那位仅凭一张嘴就让人欲罢不能的说书人似乎又重新回到了我们身边。
喜马拉雅还请来专业音效师为每一部“单式新作”都添加了配乐和音效,让听众通过耳朵就能获得身临其境的沉浸式体验。高级音效设计师的加持,使单老口中的世界变得更加立体和生动了。
相较一般的合成音频,评书中有很多场景描写和不同的情绪表达,尤其单田芳先生善以声音塑造角色,他的评书中韵律起伏变化非常之大。其中还有很多口语化发音,和普通话的发音大不相同。比如,“这个”中的“这”字,普通话发音“zhè”,但在评书中通常读为“zhèi”。如果仅靠当前主流的 TTS 框架模型做提取和合成,合成评书最终的整体感情和情绪都会很平淡,没有了原作的跌宕起伏。
为了解决这一难题,喜马拉雅智能语音实验室自主设计了单独的韵律提取模块,并将其融入到 HiTTS 技术框架中。这就意味着,不管单田芳先生评书中的韵律多么丰富和多变,都能提取并完全复刻出来,让单老的AI合成音仿佛本尊再现。另外一方面,针对单老评书中区别于标准普通话的发音,团队还开创性地设计了口音模块并对这些特殊发音进行了标注,使得单老AI合成音能够原汁原味还原出老味道。
就这样,原汁原味的单田芳“声音”复现了。
声音想象
单田芳“声音”的完美复现并非偶然。喜马拉雅已在TTS领域潜心钻研多年,TTS技术将助力喜马拉雅在现有的“UGC + PGC + PUGC”内容生态之外,进一步拓展AIGC的可能性。
喜马拉雅智能语音实验室的卢恒博士表示,针对小说的TTS系统和音色选取是喜马拉雅TTS的亮点与特色。用真实自然的TTS音色演绎有声小说是非常难的,不同于普通的文字转语音,用TTS音色演绎小说需要学习小说中的抑扬顿挫、情感表达、上下文关系,区分旁白和对白,并最终将作品完美演绎出来。“喜马拉雅在这方面有着天然的优势。在音频赛道耕耘多年后,喜马拉雅已经聚集了海量有声书内容和众多优秀主播。喜马拉雅智能语音实验室尝试用各式的声音来表达不同的情感、题材和频道,因而就有了更大的试验和发挥空间。”
卢恒博士介绍,喜马拉雅自研的TTS前端文本处理分析模块已经能够高精度、全自动地对文本进行多音字识别、韵律预测和风格分类,并已开发出可以实现多情感、多风格、多语种声音的TTS技术模型,不仅可以演绎不同情绪的文字,还可以自动区分旁白、对白,并支持英文,极大地丰富了TTS能表达的情感和韵律。喜马拉雅已申请了三项TTS语音合成相关专利,其中就包括可以使没有任何英文原始数据的TTS声音能够说英文的技术框架,比如喜马拉雅技术已经可以实现用单田芳先生“声音”讲英文。
目前,喜马拉雅已经将TTS用于多种内容的制作中,助力创作者布局音频,转型升级。如,喜马拉雅联合新京报推出的《鲸快讯》专辑,连续多周位列喜马拉雅新闻类专辑新品榜第一位。对于用户来说,TTS技术的应用,会给他们带来更丰富的好内容。喜马拉雅将不断打开对于声音的想象,让技术加持声音、让声音服务生活。
(图为喜马拉雅提供,授权中国网财经使用)