[发明专利]语音识别方法和装置有效
申请号: | 202110958098.1 | 申请日: | 2021-08-20 |
公开(公告)号: | CN113539246B | 公开(公告)日: | 2022-10-18 |
发明(设计)人: | 汤志远;李先刚;邹伟;解传栋;沈明 | 申请(专利权)人: | 贝壳找房(北京)科技有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/16;G10L15/26 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 杜志敏;宋志强 |
地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 装置 | ||
本公开实施例提供了一种语音识别方法和装置,所述方法包括:获取待识别的语音数据;基于预设语音识别模型获取所述语音数据的文本数据;其中,获取预设语音识别模型的方法,包括:基于深度神经网络建立初始语音识别模型;基于所述初始语音识别模型获取语音样本对应的预测文本;分别获取所述预测文本和参考文本对应的隐空间表征;其中,所述参考文本为所述语音样本对应的真实文本;基于获取的预测文本的隐空间表征和参考文本的隐空间表征,调整所述初始语音识别模型的参数,获取预设语音识别模型。该方法能够提高语音识别的准确性。
技术领域
本公开实施例涉及一种语音识别方法和装置。
背景技术
语音识别广泛应用于人工智能场景,具有重要的现实意义和商业价值,然而当下语音识别的训练目标和评估标准都是基于简单的正确率,即通过判断识别出的文本结果与真实的文本结果之间的差异来判断系统的好坏,只关心具体的文字有没有出现,完全忽略了文本本身所表达的语义,使得系统识别出的文本容易出现逻辑不畅、语句不通等认知层面的问题。
人类语音交互的核心便在于传递语音所包含的语义,即使两句话的文字不完全一样,但只要语义一样,仍是可以接受的。机器语音识别与人类语音识别二者目标的不一致,导致了当下语音识别系统在真实的人机交互场景中只停留在表面的文字转录,并不考虑语义是否充分表达,大大降低了语音识别的准确性和使用体验。
发明内容
有鉴于此,本申请提供一种语音识别方法和装置,能够提高语音识别的准确性。
为解决上述技术问题,本申请的技术方案是这样实现的:
在一个实施例中,提供了一种语音识别方法,所述方法包括:
获取待识别的语音数据;
基于预设语音识别模型获取所述语音数据的文本数据;
其中,获取预设语音识别模型的方法,包括:
基于深度神经网络建立初始语音识别模型;
基于所述初始语音识别模型获取语音样本对应的预测文本;
分别获取所述预测文本和参考文本对应的隐空间表征;其中,所述参考文本为所述语音样本对应的真实文本;
基于获取的预测文本的隐空间表征和参考文本的隐空间表征,调整所述初始语音识别模型的参数,获取预设语音识别模型。
在另一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述语音识别方法的步骤。
在另一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现所述语音识别方法。
由上面的技术方案可见,上述实施例中基于预设语音识别模型获取所述语音数据的文本数据,其中的预设语音识别模型是通过参考文本和预测文本对应的隐空间表征来进行模型参数调整的,这样建立的预设语音识别模型能够结合语义对语音数据进行识别,进而提高语音识别的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中获取预设语音识别模型流程示意图;
图2为本申请实施例中调整识别模型参数流程示意图;
图3为本申请实施例中评估预设识别模型流程示意图;
图4为本申请实施例一中语音识别流程示意图;
图5为本申请实施例二中语音识别流程示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贝壳找房(北京)科技有限公司,未经贝壳找房(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110958098.1/2.html,转载请声明来源钻瓜专利网。