[发明专利]一种语音合成的前置处理方法和装置在审

申请号：	202110983896.X	申请日：	2021-08-25
公开（公告）号：	CN115731916A	公开（公告）日：	2023-03-03
发明（设计）人：	张鹏飞;夏溧;井绪海	申请（专利权）人：	北京有限元科技有限公司
主分类号：	G10L13/08	分类号：	G10L13/08;G06F40/211;G06F40/30
代理公司：	北京万思博知识产权代理有限公司 11694	代理人：	姜楠楠
地址：	100080 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音合成前置处理方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种语音合成的前置处理方法和装置，涉及智能语音技术领域，所述方法包括：将长文本话术根据文本的语义进行分句处理；将分句处理后的短句集合通过多线程方式，并行使用语音合成技术将所述文本转换为多段语音；将并行处理得到的多段短语音文件合并成所述长文本话术对应的长语音文件。对长文本进行语义切分，保证将长文本切成短文本的同时不破坏文本中的语义；通过多线程的方式，批量并行调用TTS算法，缩短转换的时间。

技术领域

本申请涉及智能语音技术领域，尤其涉及一种语音合成的前置处理方法和装置。

背景技术

智能语音技术是最早落地的人工智能技术，也是市场上众多人工智能产品中应用最为广泛的。伴随着人工智能的快速发展，通过庞大的用户群基础以及互联网系统优势明显，随着移动互联网、智能家居、汽车、医疗、教育等领域的应用带动智能语音产业规模持续快速增长，语音交互能够创造全新的“伴随式”场景。语音交互相比其他图像、双手操控，语音控制确实有种种超越的优势，空间越复杂，越能发挥优势。某种程度上，它能解放用户的双手，解放用户的眼睛，解放用户的双脚，特别适合在某些双手不方便的场景中使用。从计算机时代的鼠标+键盘，到互联网时代的触屏技术，再到人工智能时代的语音交互技术；每一次科技的进步都给人们的生活和工作带来了便利。

目前业务系统中均是基于各个AI厂商提供的TTS(Text To Speech，语音合成)算法，完成话术文本转语音，由于金融场景中，话术文本均是规章制度，风险条例等范式条款，文字长度很容易超过300字，但是现有的多数AI厂商的TTS技术对超过300字的文本就不能正常转换。个别AI厂商的TTS技术对于长文本的话术转换速度也很难满足要求，以上问题导致业务系统在处理长文本调用算法时体验很差。

发明内容

本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。

根据本申请的一个方面，提供了一种语音合成的前置处理方法，

将长文本话术根据文本的语义进行分句处理；

将分句处理后的短句集合通过多线程方式，并行使用语音合成技术将所述文本转换为多段语音；

将并行处理得到的多段短语音文件合并成所述长文本话术对应的长语音文件。

优选地，将长文本话术根据文本的语义进行分句处理之后还包括：

记录分句处理得到的多个短句的顺序；

将并行处理得到的多段短语音文件合并成所述长文本话术对应的长语音文件包括：

根据记录的多个短句的顺序对所述多段短语音文件进行拼接，合并成所述长文本话术对应的长语音文件。

优选地，将长文本话术根据文本的语义进行分句处理包括：

采用神经语言程序学NLP根据所述长文本话术的语义进行分句处理，将所述长文本话术切分成n段短文本。