[发明专利]语音识别方法、装置、设备及可读存储介质有效
申请号: | 202010058833.9 | 申请日: | 2020-01-19 |
公开(公告)号: | CN111276149B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 吴嘉嘉;殷兵;胡金水;刘聪 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L15/24;G10L15/16;G06V10/22;G06V10/764;G06F40/289;G06F40/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 杨华 |
地址: | 230088 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 装置 设备 可读 存储 介质 | ||
本申请公开了一种语音识别方法、装置、设备及可读存储介质,本申请获取与待识别语音相关的材料数据;确定所述材料数据包含的内容信息,并至少基于所述内容信息的语义特征及所述内容信息在所述材料数据中的视觉表现特征,确定所述材料数据对应的初步参考文本;基于所述初步参考文本,确定所述待识别语音对应的参考文本集;结合所述参考文本集对所述待识别语音进行语音识别,得到语音识别结果,由于本申请借助待识别语音相关的材料数据确定出能够辅助语音识别的参考文本集,因此能够提前获取例如专业术语等文本信息作为先验信息,辅助对待识别语音进行识别,显然能够大大提升语音识别结果的准确度。
技术领域
本申请涉及语音识别技术领域,更具体的说,是涉及一种语音识别方法、装置、设备及可读存储介质。
背景技术
语音识别即将语音转成文本的过程。近年来,随着语音识别技术的成熟,已成功应用于各行各业中,尤其是针对特定领域的语音识别技术,如针对会议的录音数据进行语音识别,将接收的语音数据直接转换为会议的文本内容,大大方便了会议秘书整理会议纪要。
然而,在某些场合下,语音识别经常会遇到一些不常见的词汇,如一些专业词汇等,导致语音识别的准确率不高。
发明内容
鉴于上述问题,提出了本申请以便提供一种语音识别方法、装置、设备及可读存储介质。具体方案如下:
一种语音识别方法,包括:
获取与待识别语音相关的材料数据;
确定所述材料数据包含的内容信息,并至少基于所述内容信息的语义特征及所述内容信息在所述材料数据中的视觉表现特征,确定所述材料数据对应的初步参考文本;
基于所述初步参考文本,确定所述待识别语音对应的参考文本集;
结合所述参考文本集对所述待识别语音进行语音识别,得到语音识别结果。
优选地,所述至少基于所述内容信息的语义特征及所述内容信息在所述材料数据中的视觉表现特征,确定所述材料数据对应的初步参考文本,包括:
基于所述内容信息的语义特征及所述内容信息在所述材料数据中的视觉表现特征,确定所述材料数据对应的初步参考文本;
或,
基于所述内容信息的语义特征、所述内容信息在所述材料数据中的视觉表现特征及所述材料数据的属性特征,确定所述材料数据对应的初步参考文本。
优选地,
所述内容信息在所述材料数据中的视觉表现特征包括以下任意一项或多项的组合:
内容信息在所述材料数据中的格式、排版、位置;
所述材料数据的属性特征包括以下任意一项或多项的组合:
材料数据的类型、材料数据的风格、材料数据的编著人属性信息。
优选地,所述基于所述内容信息的语义特征及所述内容信息在所述材料数据中的视觉表现特征,确定所述材料数据对应的初步参考文本,包括:
确定所述内容信息的语义特征及所述内容信息在所述材料数据中的视觉表现特征;
将所述语义特征及所述视觉表现特征输入配置的关键信息确定模型,得到模型输出的关键信息,作为材料数据对应的初步参考文本,其中:
所述关键信息确定模型以训练数据所包含的内容信息的语义特征及内容信息在训练数据中的视觉表现特征为训练样本,以标注的与训练数据对应的关键信息为样本标签训练得到。
优选地,确定所述内容信息的语义特征的过程,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010058833.9/2.html,转载请声明来源钻瓜专利网。