[发明专利]一种语音合成的前置处理方法和装置在审
申请号: | 202110983896.X | 申请日: | 2021-08-25 |
公开(公告)号: | CN115731916A | 公开(公告)日: | 2023-03-03 |
发明(设计)人: | 张鹏飞;夏溧;井绪海 | 申请(专利权)人: | 北京有限元科技有限公司 |
主分类号: | G10L13/08 | 分类号: | G10L13/08;G06F40/211;G06F40/30 |
代理公司: | 北京万思博知识产权代理有限公司 11694 | 代理人: | 姜楠楠 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 合成 前置 处理 方法 装置 | ||
本申请公开了一种语音合成的前置处理方法和装置,涉及智能语音技术领域,所述方法包括:将长文本话术根据文本的语义进行分句处理;将分句处理后的短句集合通过多线程方式,并行使用语音合成技术将所述文本转换为多段语音;将并行处理得到的多段短语音文件合并成所述长文本话术对应的长语音文件。对长文本进行语义切分,保证将长文本切成短文本的同时不破坏文本中的语义;通过多线程的方式,批量并行调用TTS算法,缩短转换的时间。
技术领域
本申请涉及智能语音技术领域,尤其涉及一种语音合成的前置处理方法和装置。
背景技术
智能语音技术是最早落地的人工智能技术,也是市场上众多人工智能产品中应用最为广泛的。伴随着人工智能的快速发展,通过庞大的用户群基础以及互联网系统优势明显,随着移动互联网、智能家居、汽车、医疗、教育等领域的应用带动智能语音产业规模持续快速增长,语音交互能够创造全新的“伴随式”场景。语音交互相比其他图像、双手操控,语音控制确实有种种超越的优势,空间越复杂,越能发挥优势。某种程度上,它能解放用户的双手,解放用户的眼睛,解放用户的双脚,特别适合在某些双手不方便的场景中使用。从计算机时代的鼠标+键盘,到互联网时代的触屏技术,再到人工智能时代的语音交互技术;每一次科技的进步都给人们的生活和工作带来了便利。
目前业务系统中均是基于各个AI厂商提供的TTS(Text To Speech,语音合成)算法,完成话术文本转语音,由于金融场景中,话术文本均是规章制度,风险条例等范式条款,文字长度很容易超过300字,但是现有的多数AI厂商的TTS技术对超过300字的文本就不能正常转换。个别AI厂商的TTS技术对于长文本的话术转换速度也很难满足要求,以上问题导致业务系统在处理长文本调用算法时体验很差。
发明内容
本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。
根据本申请的一个方面,提供了一种语音合成的前置处理方法,
将长文本话术根据文本的语义进行分句处理;
将分句处理后的短句集合通过多线程方式,并行使用语音合成技术将所述文本转换为多段语音;
将并行处理得到的多段短语音文件合并成所述长文本话术对应的长语音文件。
优选地,将长文本话术根据文本的语义进行分句处理之后还包括:
记录分句处理得到的多个短句的顺序;
将并行处理得到的多段短语音文件合并成所述长文本话术对应的长语音文件包括:
根据记录的多个短句的顺序对所述多段短语音文件进行拼接,合并成所述长文本话术对应的长语音文件。
优选地,将长文本话术根据文本的语义进行分句处理包括:
采用神经语言程序学NLP根据所述长文本话术的语义进行分句处理,将所述长文本话术切分成n段短文本。
优选地,将并行处理得到的多段短语音文件合并成所述长文本话术对应的长语音文件包括:
将所述n段短文本对应的n段短语音文件,通过FFmpeg合并成一段完整的语音文件。
第二方面,本发明还提供一种语音合成的前置处理装置,包括:
中文分句引擎,设置为将长文本话术根据文本的语义进行分句处理;
多线程执行器,设置为将分句处理后的短句集合通过多线程方式,并行使用语音合成技术将所述文本转换为多段语音;
媒体文本处理器,设置为将并行处理得到的多段短语音文件合并成所述长文本话术对应的长语音文件。
优选地,所述中文分句引擎还设置为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京有限元科技有限公司,未经北京有限元科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110983896.X/2.html,转载请声明来源钻瓜专利网。