[发明专利]语音识别的置信度估计方法、存储介质及电子设备在审
| 申请号: | 202211405508.0 | 申请日: | 2022-11-10 |
| 公开(公告)号: | CN115713938A | 公开(公告)日: | 2023-02-24 |
| 发明(设计)人: | 石宪 | 申请(专利权)人: | 阿里巴巴达摩院(杭州)科技有限公司 |
| 主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L15/22;G10L15/06 |
| 代理公司: | 北京博浩百睿知识产权代理有限责任公司 11134 | 代理人: | 李静茹 |
| 地址: | 310023 浙江省杭州市余杭*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语音 识别 置信 估计 方法 存储 介质 电子设备 | ||
本申请公开了一种语音识别的置信度估计方法、存储介质及电子设备。该方法包括:获取语音数据和文本数据;对语音数据进行特征提取,得到语音数据的声学特征;对声学特征进行长度预测和特征抽取,预测得到文本长度和语音特征,文本长度用于表征与语音数据对应的文本包含的字符的数量,语音特征的长度与文本长度相同;基于语音特征对语音数据和文本数据进行匹配,得到置信度估计结果,置信度估计结果用于表征语音数据对应的文本包含的每个字符与文本数据的匹配概率。本申请解决了相关技术中基于语音识别的置信度估计的准确度不高的技术问题,使得下游任务可以更好的基于置信度估计结果进行针对性的操作,帮助下游任务作出正确的判断。
技术领域
本申请涉及数据处理领域,具体而言,涉及一种语音识别的置信度估计方法、存储介质及电子设备。
背景技术
在完整的人机交互链路中,智能对话、机器翻译等语音识别下游任务不仅需要单一的识别结果,还需要对识别结果可信程度进行量化。但目前的主流的AED(基于注意力的编码器-解码器,attention based encoder-decoder)端到端语音识别模型中,存在过度置信与标签同步的问题,严重影响了输出层的似然概率作为置信度的质量。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种语音识别的置信度估计方法、存储介质及电子设备,以至少解决相关技术中基于语音识别的置信度估计的准确度不高的技术问题。
根据本申请实施例的一个方面,提供了一种语音识别的置信度估计方法,包括:获取语音数据和文本数据;对语音数据进行特征提取,得到语音数据的声学特征;对声学特征进行长度预测和特征抽取,预测得到文本长度和语音特征,其中,文本长度用于表征与语音数据对应的文本包含的字符的数量,语音特征的长度与文本长度相同;基于语音特征对语音数据和语音文本进行匹配,得到置信度估计结果,其中,置信度估计结果用于表征语音数据对应的文本包含的每个字符与文本数据的匹配概率。
根据本申请实施例的另一方面,还提供了一种语音识别的置信度估计方法,包括:响应作用于操作界面上的输入指令,驱动语音采集设备采集生物对象发出的语音数据,并获取文本数据;响应作用于操作界面上的置信度估计指令,在操作界面上显示置信度估计结果,其中,置信度估计结果用于表征语音数据对应的文本包含的每个字符与文本数据的匹配概率,置信度估计结果通过基于语音数据的语音特征对语音数据和文本数据进行匹配得到,语音特征的长度与文本长度相同,文本长度用于表征与语音数据对应的文本包含的字符的数量,语音特征和文本长度通过对语音数据的声学特征进行长度预测和特征抽取预测得到,声学特征通过对语音数据进行特征提取得到。
根据本申请实施例的另一方面,还提供了一种语音识别的置信度估计方法,包括:驱动虚拟现实VR设备或增强现实AR设备采集生物对象发出的语音数据,并获取文本数据;对语音数据进行特征提取,得到语音数据的声学特征;对声学特征进行长度预测和特征抽取,预测得到文本长度和语音特征,其中,文本长度用于表征与语音数据对应的文本包含的字符的数量,语音特征的长度与文本长度相同;基于语音特征对语音数据和文本数据进行匹配,得到置信度估计结果,其中,置信度估计结果用于表征语音数据对应的文本包含的每个字符与文本数据的匹配概率;驱动VR设备或AR设备的呈现画面上渲染展示置信度估计结果。
根据本申请实施例的另一方面,还提供了一种语音识别的置信度估计方法,包括:通过调用第一接口获取语音数据和文本数据,其中,第一接口包括第一参数,第一参数的参数值为语音数据和文本数据;对语音数据进行特征提取,得到语音数据的声学特征;对声学特征进行长度预测和特征抽取,预测得到文本长度和语音特征,其中,文本长度用于表征与语音数据对应的文本包含的字符的数量,语音特征的长度与文本长度相同;基于语音特征对语音数据和文本数据进行匹配,得到置信度估计结果,其中,置信度估计结果用于表征语音数据对应的文本包含的每个字符与文本数据的匹配概率;通过调用第二接口输出置信度估计结果,其中,第二接口包括第二参数,第二参数的参数值为置信度估计结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴达摩院(杭州)科技有限公司,未经阿里巴巴达摩院(杭州)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211405508.0/2.html,转载请声明来源钻瓜专利网。





