[发明专利]一种语音处理方法及装置有效
申请号: | 201810448810.1 | 申请日: | 2018-05-11 |
公开(公告)号: | CN110473519B | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 石鹏;刘雨;梁文波 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G10L15/04 | 分类号: | G10L15/04;G10L15/26 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 处理 方法 装置 | ||
1.一种语音处理方法,其特征在于,包括:
获取待进行语音识别的语音文件;
在所述语音文件中识别用于切分语音文件的语音切分点,并根据识别出的语音切分点,对所述语音文件进行切分,得到至少两个语音子文件,其中,所述语音切分点基于所述语音文件中的各个时间点确定;
分别对每个所述语音子文件进行语音识别,得到每个所述语音子文件对应的语音识别结果;
基于每个所述语音子文件对应的语音识别结果,按照所述语音子文件对应的顺序标识进行组合得到所述语音文件的语音识别结果;
在所述语音文件中识别用于切分语音文件的语音切分点,包括:
识别出所述语音文件中,对应的振幅值小于第一预设数值的至少一个时间点;
计算相邻两个所述时间点的时间间隔;
基于每一所述时间间隔,计算切分成的所述语音子文件的数量;其中,切分得到的相邻两个所述语音子文件的时间长度差在第二预设数值内;
根据计算得到的所述数量,从至少一个所述时间点中选取得到所述语音切分点。
2.根据权利要求1所述的语音处理方法,其特征在于,在所述语音文件中识别用于切分语音文件的语音切分点,并根据识别出的语音切分点,对所述语音文件进行切分,得到至少两个语音子文件后,还包括:
依据每一所述语音子文件在所述语音文件中的位置,为每一所述语音子文件设置一个顺序标识;
相应的,基于每个所述语音子文件对应的语音识别结果,得到所述语音文件的语音识别结果,包括:
依据每个所述语音子文件对应的顺序标识,将所有的所述语音子文件的语音识别结果进行组合,得到所述语音文件的语音识别结果。
3.根据权利要求1所述的语音处理方法,其特征在于,分别对每个所述语音子文件进行语音识别,得到每个所述语音子文件对应的语音识别结果,包括:
分别对至少一个所述语音子文件进行分帧和组合操作,得到每个所述语音子文件对应的音素组;
分析得到每个所述音素组中每一音素对应的至少一个识别结果以及每个所述识别结果对应的识别准确度;
基于语义分析算法以及每个所述识别结果对应的识别准确度,分析得到每一音素对应的最终识别结果;
基于每一音素对应的最终识别结果,得到每个所述语音子文件对应的语音识别结果。
4.一种语音处理装置,其特征在于,包括:
文件获取模块,用于获取待进行语音识别的语音文件;
识别模块,用于在所述语音文件中识别用于切分语音文件的语音切分点,其中,所述语音切分点基于所述语音文件中的各个时间点确定;
文件切分模块,用于根据识别出的语音切分点,对所述语音文件进行切分,得到至少两个语音子文件;
语音识别模块,用于分别对每个所述语音子文件进行语音识别,得到每个所述语音子文件对应的语音识别结果;
结果分析模块,用于基于每个所述语音子文件对应的语音识别结果,按照所述语音子文件对应的顺序标识进行组合得到所述语音文件的语音识别结果;
所述识别模块还包括:
间隔计算子模块,用于计算相邻两个所述时间点的时间间隔;
数量计算子模块,用于基于每一所述时间间隔,计算切分成的所述语音子文件的数量;其中,切分得到的相邻两个所述语音子文件的时间长度差在第二预设数值内;
第一切分点选取子模块,用于根据计算得到的所述数量,从至少一个所述时间点中选取得到所述语音切分点。
5.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1至3中任意一项所述的语音处理方法。
6.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至3中任意一项所述的语音处理方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810448810.1/1.html,转载请声明来源钻瓜专利网。