[发明专利]语音对话的处理方法、系统、设备和存储介质有效
申请号: | 201910910610.8 | 申请日: | 2019-09-25 |
公开(公告)号: | CN110650250B | 公开(公告)日: | 2022-03-08 |
发明(设计)人: | 王黎黎;赵桦 | 申请(专利权)人: | 携程旅游信息技术(上海)有限公司 |
主分类号: | H04M3/22 | 分类号: | H04M3/22;G10L15/26;G06F16/332 |
代理公司: | 上海弼兴律师事务所 31283 | 代理人: | 薛琦;张冉 |
地址: | 201203 上海市浦东新*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 对话 处理 方法 系统 设备 存储 介质 | ||
本发明公开了一种语音对话的处理方法、系统、设备及存储介质,该方法包括:将语音对话双方的媒体流录制在不同声道,生成一录音文件;将录音文件拆分成左、右声道录音文件;对左、右声道录音文件分别进行切片处理,生成若干个包含第一、第二开始时间的左、右声道录音切片文件;对若干个左、右声道录音切片文件分别进行语音识别,生成若干个包含第一、第二开始时间的左、右声道切片文本;根据第一、第二开始时间对若干个左、右声道切片文本进行排序,生成语音对话的对话文本文件。本发明将语音对话的音频文件转化成对话形式的对话文本,可以明确区分对话双方,并且切片后的录音切片文件语义相关度提高且长度降低,可大大提高了语音的识别率。
技术领域
本发明涉及语音的自动化处理领域,尤其涉及一种语音对话的处理方法、系统、设备和存储介质。
背景技术
现阶段很多企业对外呼通话有质量或者其它要求,然而语音形式的文件很不利于检查,通话录音调听的过程需要投入大量的人力、物力及时间。为了节约成本,同时提高调听的便利性,采用文字的方式替换传统的录音调听模式会更高效。但是现有的语音识别一般是一段录音整体识别,识别率不高,且不能区分对话双方。
发明内容
本发明要解决的技术问题是为了克服现有技术中语音识别率不高且不能区分对话双方的缺陷,提供一种语音对话的处理方法、系统、设备和存储介质。
本发明是通过下述技术方案来解决上述技术问题:
本发明提供一种语音对话的处理方法,该处理方法包括如下步骤:
将语音对话双方的媒体流录制在不同声道,生成一录音文件;
将所述录音文件拆分成左声道录音文件和右声道录音文件;
对所述左声道录音文件和所述右声道录音文件分别进行切片处理,生成若干个包含第一开始时间的左声道录音切片文件和若干个包含第二开始时间的右声道录音切片文件;
对若干个所述左声道录音切片文件和若干个所述右声道录音切片文件分别进行语音识别,生成若干个包含所述第一开始时间的左声道切片文本和若干个包含所述第二开始时间的右声道切片文本;
根据所述第一开始时间和所述第二开始时间对所述若干个左声道切片文本和所述若干个右声道切片文本进行排序,生成语音对话的对话文本文件。
较佳地,所述生成一录音文件的步骤之后还包括:将所述录音文件保存至一文件服务器;
所述生成语音对话的对话文本文件的步骤之后还包括:将所述对话文本文件保存至所述文件服务器;所述对话文本文件与所述录音文件保存在同一文件夹中。
较佳地,使用ffmpeg(Fast Forward Mpeg,一种多媒体音视频处理工具)对所述左声道录音文件和所述右声道录音文件分别进行切片处理;
使用语音识别ASR(Automatic Speech Recognition,自动语音识别)集群对若干个所述左声道录音切片文件和若干个所述右声道录音切片文件进行语音识别。
较佳地,设置若干个预设关键字,在所述生成若干个左声道切片文本和若干个右声道切片文本的步骤之后,在若干个所述左声道切片文本和若干个所述右声道切片文本中匹配所述预设关键字,若命中则在所述左声道切片文本和/或右声道切片文本中高亮所述预设关键字。
本发明还提供一种语音对话的处理系统,该处理系统包括录音模块、声道拆分模块、切片模块、语音识别模块和拼接模块;
所述录音模块用于将语音对话双方的媒体流录制在不同声道,生成一录音文件;
所述声道拆分模块用于将所述录音文件拆分成左声道录音文件和右声道录音文件;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于携程旅游信息技术(上海)有限公司,未经携程旅游信息技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910910610.8/2.html,转载请声明来源钻瓜专利网。