[发明专利]一种语音识别结果纠错方法在审
申请号: | 201710994082.X | 申请日: | 2017-10-23 |
公开(公告)号: | CN107729321A | 公开(公告)日: | 2018-02-23 |
发明(设计)人: | 叶伟 | 申请(专利权)人: | 上海百芝龙网络科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G10L15/26 |
代理公司: | 上海伯瑞杰知识产权代理有限公司31227 | 代理人: | 孟旭彤 |
地址: | 200050 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 识别 结果 纠错 方法 | ||
技术领域
本发明属于人工智能技术领域,特别涉及一种语音识别结果纠错方法。
背景技术
随着语音识别技术的日臻成熟,语音交互使用范围越来越广。相比其他交互方式,语音交互所实现的交互方式更符合人们的日常习惯,也更为高效。目前,语音交互方式在智能家居、工业控制、驾驶辅助等各个领域,都得到了广泛应用。
在实际应用中,由于周围噪音、方言等因素的影响,语音交互过程中语音识别的结果往往与用户的表达不一致。尤其在日常口语场景下,语音识别的错误率较高。而现有技术中,都集中在提升语音识别准确率上,却缺乏对识别错误的纠错手段,因而影响了语音识别技术的进一步推广。
发明内容
本发明提供一种语音识别结果纠错方法,用以对语音识别的结果文本进行准确的纠错。
一种语音识别结果纠错方法,包括以下步骤:
S11,对语音识别结果进行预处理;
S12,找出语音识别结果中容易出错的词句,或对文本语义解析重要的待纠正词、字;
S13,对待纠正词、字进行注音,包括全拼和各拼音首字母两种拼音方式,得到待纠正语音识别结果对应的拼音,对应的拼音是指无音调;
S14,根据所述拼音全拼方式,利用编辑距离确算法,确定最优候选文本及次优候选文本;
S15,根据所述拼音首字母,再次利用编辑距离算法,确定最优候选文本及次优候选文本;
S16,将所有最优候选文本及次优候选文本合并,重复的候选项只保留一个;
S17,分别将准候选文本替换待纠错文本,利用n-grama语言模型分别计算出各替换后的各自语句概率,选取概率最高的作为最终所述待纠正的语音识别结果。
步骤S11中的预处理包括分词、词性标注、去停用词及进行语法分析文本操作。
本发明通过对语音识别结果进行分词、词性标注、去除停用词及进行语法分析。将结果中动宾结构短语、动词、名词及未在词典库中出现的词作为待纠正文本,同时注意保持各词在原语音文本中的顺序;将待纠正文本结果进行分词,并得到各分词所对应的拼音;根据各分词所述拼音从词典库中获取候选词,并在候选词中确定最优候选词;判断所述最优候选词是否满足预设条件;如果满足预设条件,用所述最优候选词替换原文本待纠正词。将所有纠正结果合并,得出最终语音识别纠正结果。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1本发明实施例中的语音识别结果纠错方法的流程示意图。
具体实施方式
参见图1,本实施例的方法包括:
S11:对语音识别结果进行分词、词性标注、去停用词及进行语法分析等文本操作
S12:根据已有或将来出现的技术,找出容易出错或对文本语义解析重要的待纠正词、字。尤其注意语音识别结果中动宾结构短语、动词、名词及未在词典库中出现的词。
S13:对待纠正词、字进行注音,得到待纠正语音识别结果对应的拼音,对应的拼音是指无音调。
此种情况又分多种情况,详细阐述如下:
同音别字,取全拼:
例如,待纠正的语音识别结果是“看三声三是”,分完词后对应的拼音是:kan san sheng san shi
发音不标准,取各字首字母:
例如,待纠正的语音识别结果是“看山山山是”,分完词后对应的拼音是:kan shan shan shan shi,可对其只取各词首字母k s s s s
S14:首先根据所述拼音全拼,利用编辑距离确算法,确定最优候选文本及次优候选文本;
S15:其次根据所述拼音首字母,再次利用编辑距离算法,确定最优候选文本及次优候选文本。
S16:将所有最优候选文本及次优候选文本合并,重复的候选项只保留一个,所有统称为准候选文本。
S17:分别将准候选文本替换待纠错文本,利用n-grama语言模型分别计算出各替换后的各自语句概率,选取概率最高的作为最终所述待纠正的语音识别结果
值得说明的是,虽然前述内容已经参考若干具体实施方式描述了本发明创造的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海百芝龙网络科技有限公司,未经上海百芝龙网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710994082.X/2.html,转载请声明来源钻瓜专利网。