[发明专利]语音识别方法和装置有效
申请号: | 201610795918.9 | 申请日: | 2016-08-31 |
公开(公告)号: | CN106328147B | 公开(公告)日: | 2022-02-01 |
发明(设计)人: | 高建清;陈恩红;王智国;胡国平;胡郁;刘庆峰 | 申请(专利权)人: | 中国科学技术大学;科大讯飞股份有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L15/197;G10L15/18 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 装置 | ||
1.一种语音识别方法,其特征在于,包括:
获取与待识别语音数据相关的基础资料;
确定所述基础资料的关键词;
统计所述基础资料的每个句子中包含的所述关键词的个数,将包含至少两个关键词的句子中的所有关键词作为一个关键词组,将不属于任一所述关键词组的所述关键词作为独立关键词;依据所述关键词组和所述独立关键词确定搜索项,通过所述搜索项搜索目标语料;所述目标语料与所述待识别语音数据的主题相关;
通过所述目标语料训练目标主题语言模型,并使用所述目标主题语言模型、目标领域语言模型和通用语言模型对所述待识别语音数据进行识别;所述目标领域语言模型是根据所述基础资料确定的与所述待识别语音数据领域相同的语言模型;
获取在识别所述待识别语音数据的过程中已经得到的识别结果,将所述识别结果补充到所述基础资料。
2.根据权利要求1所述的方法,其特征在于,所述确定所述基础资料的关键词,包括:
以第一确定方式确定所述关键词,所述第一确定方式包括,依据预先训练得到的编码-解码模型计算所述基础资料中每个词作为所述关键词的概率,将所述概率大于第一预设阈值的词确定为所述关键词;
或者以第二确定方式确定所述关键词,所述第二确定方式包括,计算所述基础资料中每个词的词频和逆文档频率,将所述词频大于第二预设阈值且所述逆文档频率大于第三预设阈值的词确定为所述关键词;
或者以第三确定方式确定所述关键词,所述第三确定方式包括,计算所述基础资料中每个词的TextRank得分,将所述TextRank得分大于第四预设阈值的词作为所述关键词;
或者所述第一确定方式、所述第二确定方式和所述第三确定方式中,以任意两种方式或三种方式相结合来确定候选关键词,将经过去重后的所述候选关键词作为所述关键词。
3.根据权利要求1所述的方法,其特征在于,还包括:
依据所述基础资料和与系统预先存储的各目标领域语言模型的领域类别相匹配的领域判定模型,确定所述待识别语音数据属于每个所述领域类别的概率,按设定顺序排序,生成概率向量;
以所述概率向量作为可信度判定模型的输入,判断所述概率向量是否可信,所述可信度判定模型与所述领域类别相匹配;
若所述概率向量可信,对于每个所述领域类别,判断所述待识别语音数据属于所述领域类别的概率是否超过与所述领域类别相对应的第五预设阈值;
若是,则以所述概率所对应的所述领域类别的目标领域语言模型识别所述待识别语音数据。
4.一种语音识别装置,其特征在于,包括:
获取模块,用于获取与待识别语音数据相关的基础资料;
第一确定模块,用于确定所述基础资料的关键词;
搜索模块包括统计单元和搜索单元:
所述统计单元,用于统计所述基础资料的每个句子中包含的所述关键词的个数,将包含至少两个关键词的句子中的所有关键词作为一个关键词组,将不属于任一所述关键词组的所述关键词作为独立关键词;
所述搜索单元,用于依据所述关键词组和所述独立关键词确定搜索项,通过所述搜索项搜索目标语料;所述目标语料与所述待识别语音数据的主题相关;
第一识别模块,用于通过所述目标语料训练目标主题语言模型,并使用所述目标主题语言模型、目标领域语言模型和通用语言模型对所述待识别语音数据进行识别;所述目标领域语言模型是根据所述基础资料确定的与所述待识别语音数据领域相同的语言模型;
更新模块,用于获取在识别所述待识别语音数据的过程中已经得到的识别结果,将所述识别结果补充到所述基础资料。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学;科大讯飞股份有限公司,未经中国科学技术大学;科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610795918.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于故障注入的芯片安全测试方法及系统
- 下一篇:数据查询方法和装置