[发明专利]语音通话方法、装置、计算机设备及存储介质有效
申请号: | 202110603109.4 | 申请日: | 2021-05-31 |
公开(公告)号: | CN113223533B | 公开(公告)日: | 2023-06-06 |
发明(设计)人: | 蒙桂;彭钊 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L17/00;G10L17/04;H04N7/14;H04N5/265 |
代理公司: | 深圳市赛恩倍吉知识产权代理有限公司 44334 | 代理人: | 刘丽华 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 通话 方法 装置 计算机 设备 存储 介质 | ||
本发明涉及人工智能技术领域,提供一种语音通话方法、装置、计算机设备及存储介质,包括:获取第一用户阅读预设文本的阅读音频,调用声纹提取模型提取所述阅读音频中的所述第一用户的用户声纹及声纹提取参数;根据声纹提取参数提取双录视频中第一用户的通话音频;语音识别通话音频得到通话文本,对通话文本进行文本切分得到多个通话文本片段;从双录视频中切分出与每个通话文本片段对应的通话视频片段;将每个通话文本片段叠加显示在对应的通话视频片段上以辅助第二用户进行语音通话,根据双录视频的采集参数对显示在通话视频片段上的通话文本进行缩放处理。本发明能够辅助语音通话,提高语音通话的质量。
技术领域
本发明涉及人工智能技术领域,具体涉及一种语音通话方法、装置、计算机设备及存储介质。
背景技术
远程视频服务为用户的业务办理提供了很多便利,使用户“足不出户”成为了可能。另一方面,也在一定程度上取代了传统网点,降低了网点装修、场地开销、服务人员分散难管理等实际操作问题带来的成本。
远程视频服务需要高质量的语音通话,但受限于用户所处的环境等因素的影响,难免会出现周围环境噪声过大,导致用户无法清晰的听到客服的说话声,或客服无法清晰的听到用户的说话声,在嘈杂环境中通话时的通话质量很低,使客服与用户的沟通交流受到影响,用户体验十分不好,也一定程度上增加了沟通成本。
发明内容
鉴于以上内容,有必要提出一种语音通话方法、装置、计算机设备及存储介质,能够提高语音通话的质量,提升用户体验。
本发明的第一方面提供一种语音通话方法,所述方法包括:
获取第一用户阅读预设文本的阅读音频,并调用声纹提取模型提取所述阅读音频中的所述第一用户的用户声纹及声纹提取参数;
采集所述第一用户的双录视频,并根据所述声纹提取参数从所述双录视频中提取所述第一用户的通话音频;
对所述通话音频进行语音识别得到通话文本,并对所述通话文本进行文本切分得到多个通话文本片段;
从所述双录视频中切分出与每个通话文本片段对应的通话视频片段;
将每个通话文本片段叠加显示在对应的通话视频片段上以辅助第二用户进行语音通话,并根据所述双录视频的采集参数对显示在所述通话视频片段上的通话文本进行缩放处理。
在一个可选的实施例中,所述调用声纹提取模型提取所述阅读音频中的所述第一用户的用户声纹及声纹提取参数包括:
将所述阅读音频编码为第一脉冲编码调制数据;
调用声纹提取模型基于预设的第一声纹提取参数从所述第一脉冲编码调制数据中提取出多个第一声纹,对每个所述第一声纹进行语音识别得到第一声纹文本,并对每个所述第一声纹文本与所述预设文本进行匹配;
当每个所述第一声纹文本与所述预设文本匹配失败时,更新所述第一声纹提取参数得到第二声纹提取参数;
调用所述声纹提取模型基于所述第二声纹提取参数从所述第一脉冲编码调制数据中提取出多个第二声纹,对每个所述第二声纹进行语音识别得到第二声纹文本,并对每个所述第二声纹文本与所述预设文本进行匹配;
当任意一个所述第二声纹文本与所述预设文本匹配成功时,将匹配成功的第二声纹确定为所述用户声纹,并将所述第二声纹提取参数确定为所述用户声纹提取参数。
在一个可选的实施例中,所述对每个所述第一声纹文本与所述预设文本进行匹配包括:
将待进行文本匹配的第一声纹文本确定为目标第一声纹,将其余每个第一声纹文本确定为非目标第一声纹;
根据多个所述非目标第一声纹计算所述目标第一声纹的文本匹配度阈值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110603109.4/2.html,转载请声明来源钻瓜专利网。