[发明专利]一种语音识别方法及其相关设备在审
申请号: | 202110694320.1 | 申请日: | 2021-06-22 |
公开(公告)号: | CN113409792A | 公开(公告)日: | 2021-09-17 |
发明(设计)人: | 马志强;吴明辉;方昕;刘俊华 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L15/04;G10L15/16;G10L19/00;G10L25/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 230088 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 识别 方法 及其 相关 设备 | ||
本申请公开了一种语音识别方法及其相关设备,该方法包括:在获取到当前语音段和该当前语音段对应的参考语音后,先依据待使用状态数据和该当前语音段对应的参考语音,对该当前语音段进行编码处理,得到该当前语音段的语音编码和该当前语音段的编码状态数据;再对该当前语音段的语音编码进行解码处理,得到该当前语音段对应的语音文本,并利用该当前语音段的编码状态数据,更新该待使用状态数据。如此能够实现边采集用户语音边进行语音识别的目的,可以提高语音识别的实时性。又因当前语音段的历史语音信息(也就是,待使用状态数据)在历史语音识别过程中已计算过,使得在当前轮语音识别过程中直接使用即可,如此有利于提高语音识别的实时性。
技术领域
本申请涉及人工智能技术领域,尤其涉及一种语音识别方法及其相关设备。
背景技术
随着语音识别技术的发展,语音识别技术的应用场景越来越广泛。例如,语音识别技术可以应用在语音输入法、语音助手、听见会议系统等等。
然而,因相关语音识别技术存在缺陷,使得基于该相关语音识别技术的语音识别过程具有较差的实时性。
发明内容
本申请实施例的主要目的在于提供一种语音识别方法及其相关设备,能够有效地提高语音识别的实时性。
本申请实施例提供了一种语音识别方法,所述方法包括:
获取当前语音段和所述当前语音段对应的参考语音;其中,所述参考语音的采集时间晚于所述当前语音段的采集时间;
依据待使用状态数据和所述当前语音段对应的参考语音,对所述当前语音段进行编码处理,得到所述当前语音段的语音编码和所述当前语音段的编码状态数据;
对所述当前语音段的语音编码进行解码处理,得到所述当前语音段对应的语音文本,并利用所述当前语音段的编码状态数据,更新所述待使用状态数据。
在一种可能的实施方式中,所述语音编码的确定过程,包括:
分别对所述当前语音段和所述当前语音段对应的参考语音进行特征提取,得到所述当前语音段的语音特征和所述当前语音段对应的参考特征;
按照所述待使用状态数据,对所述当前语音段的语音特征进行正向编码,得到所述当前语音段的正向编码结果;
依据所述当前语音段对应的参考特征,对所述当前语音段的语音特征进行反向编码,得到所述当前语音段的反向编码结果;
将所述当前语音段的正向编码结果和所述当前语音段的反向编码结果进行拼接,得到所述当前语音段的语音编码。
在一种可能的实施方式中,所述反向编码结果的确定过程,包括:
对所述当前语音段对应的参考特征进行反向编码,得到所述当前语音段对应的反向初始状态数据;
按照所述当前语音段对应的反向初始状态数据,对所述当前语音段的语音特征进行反向编码,得到所述当前语音段的反向编码结果。
在一种可能的实施方式中,所述依据所述当前语音段对应的参考特征,对所述当前语音段的语音特征进行反向编码,得到所述当前语音段的反向编码结果,包括:
将所述当前语音段的语音特征和所述当前语音段对应的参考特征输入预先构建的简单回归单元SRU网络,得到所述SRU网络输出的所述当前语音段的反向编码结果。
在一种可能的实施方式中,所述编码状态数据的确定过程,包括:
对所述当前语音段进行特征提取,得到所述当前语音段的语音特征;
按照所述待使用状态数据,对所述当前语音段的语音特征进行正向编码,得到所述当前语音段的编码状态数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110694320.1/2.html,转载请声明来源钻瓜专利网。