[发明专利]一种语音识别方法及其装置在审
申请号: | 201710655476.2 | 申请日: | 2017-08-03 |
公开(公告)号: | CN107451121A | 公开(公告)日: | 2017-12-08 |
发明(设计)人: | 李英杰 | 申请(专利权)人: | 京东方科技集团股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G10L15/26 |
代理公司: | 北京同达信恒知识产权代理有限公司11291 | 代理人: | 郭润湘 |
地址: | 100015 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 识别 方法 及其 装置 | ||
1.一种语音识别方法,其特征在于,该方法包括:
根据输入的语音识别出该语音所对应的句子文本;
识别所述句子文本中的错词;
确定所述错词所对应的替换词;
将所述错词更改为所述替换词。
2.根据权利要求1所述的方法,其特征在于,所述识别所述句子文本中的错词,包括:
对所述句子文本进行分词处理,得到至少一个词语;
根据预设的训练语料库,确定与所述句子文本中的选定词语相似度最大的前N个相似词语,N为正整数;
确定所述前N个相似词语与所述选定词语的第一平均相似度;
依次计算所述选定词语与所述句子文本中其他词语之间的相似度,并确定所述选定词语与所述其他词语之间的最大相似度一;
当所述第一平均相似度小于第一阈值,且所述最大相似度一小于第二阈值时,则确定所述选定词语为错词。
3.根据权利要求1所述的方法,其特征在于,确定所述错词所对应的替换词,包括:
将所述错词转换成拼音,根据预设的拼音词语映射表确定所述拼音所对应的M个词语,M为正整数;
根据预设的训练语料库,分别确定所述拼音所对应的M个词语中的每一词语所对应的相似度最大的前P个相似词语,P为正整数;
依次确定所述M个词语中的每一词语与该词语所对应的相似度最大的前P个相似词语的第二平均相似度;
依次计算所述M个词语中的每一词语与所述句子文本中其他词语之间的相似度,并确定所述M个词语中的每一词语与所述其他词语之间的最大相似度二;
依次确定所述M个词语中的每一词语所对应的第二平均相似度与所述最大相似度二之间的平均值,将M个所述平均值中的最大值所对应的词语作为所述错词的替换词。
4.根据权利要求2或3所述的方法,其特征在于,
所述预设的训练语料库中的每一词语对应一个词向量模型,根据每一词语所对应的词向量模型,确定两个词语之间的相似度。
5.根据权利要求3所述的方法,其特征在于,
所述预设的拼音词语映射表是根据预设的语料库中的词语,将所述词语转换成拼音,且拼音相同的词语为一组而建立的拼音与词语的映射关系表。
6.根据权利要求3或5所述的方法,其特征在于,根据区位码定位的方式将所述预设的拼音词语映射表预先进行存储。
7.根据权利要求2所述的方法,其特征在于,对所述句子文本进行分词处理,得到至少一个词语,包括:
对所述句子文本进行分词,去掉停用词后,得到至少一个词语。
8.一种语音识别装置,其特征在于,该装置包括:
初步识别单元,用于根据输入的语音识别出该语音所对应的句子文本;
错词识别单元,用于识别所述句子文本中的错词;
替换词确定单元,用于确定所述错词所对应的替换词;
替换单元,用于将所述错词更改为所述替换词。
9.根据权利要求8所述的装置,其特征在于,所述错词识别单元,具体用于:
对所述句子文本进行分词处理,得到至少一个词语;
根据预设的训练语料库,确定与所述句子文本中的选定词语相似度最大的前N个相似词语,N为正整数;
确定所述前N个相似词语与所述选定词语的第一平均相似度;
依次计算所述选定词语与所述句子文本中其他词语之间的相似度,并确定所述选定词语与所述其他词语之间的最大相似度一;
当所述第一平均相似度小于第一阈值,且所述最大相似度一小于第二阈值时,则确定所述选定词语为错词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东方科技集团股份有限公司,未经京东方科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710655476.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于点胶治具的夹具
- 下一篇:一种轴承压涂装置