[发明专利]一种语音识别的方法和装置有效
申请号: | 201410205944.2 | 申请日: | 2014-05-15 |
公开(公告)号: | CN104021786B | 公开(公告)日: | 2017-05-24 |
发明(设计)人: | 乔亚飞;赵芳;游世学;孟凡兴;郑永涛 | 申请(专利权)人: | 北京中科汇联信息技术有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/26 |
代理公司: | 北京润泽恒知识产权代理有限公司11319 | 代理人: | 兰淑铎 |
地址: | 100083 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 识别 方法 装置 | ||
技术领域
本申请涉及语音识别领域,特别是涉及一种语音识别的方法和装置。
背景技术
近年来,随着语言处理技术的发展,智能问答系统受到了极大的关注,从聊天软件‘小黄鸡’的风靡,到流行于各大网络平台的应答机器人,智能问答系统在众多领域得到广泛应用。
大多数问答系统都是以文本键入的形式作为问答系统的输入,繁琐费时,特别是在移动终端(如手机)等无键盘设备上或对于老年人、残疾人等操作困难人群,文本输入变得异常困难。因此,基于语音输入的问答系统应运而生,用户以口述的形式输入问题,经过语音识别,把识别结果传给问答系统进行处理,这样减少了用户的操作,提高了用户体验。
语音智能问答系统具有方便、快捷、适用人群广泛的优点,然而,将语音作为用户输入带来了新的问题。由于用户的声音质量的不确定性、环境噪声的多样性、用户口音变异、未登录词等各种复杂因素的影响,语音识别的精度很难保证。现有技术中语音识别技术对标准普通话的识别正确率大约在90%左右,如果存在较高的噪音和口音,识别率的正确率就大大降低了。错误的识别结果会影响问答系统对用户输入的理解,进而影响问答系统的正确率。
目前,解决上述问题的方法是通过增加问答系统的知识领域来提高语音识别系统的准确率。然而上述方法,一方面存在着某些语音识别错误在后续问答系统中扩大,导致问答系统正确率急剧下降。另一方面,问答系统本身在容错时容易忽略非关键字,在此情形下对输入问题进行模糊匹配时,将导致问答系统输出错误结果的可能性大大增加。
发明内容
本申请提供一种语音识别的方法和装置,以解决上述现有语音识别错误对问答系统影响的问题。
为了解决上述问题,本申请公开了一种语音识别的方法,包括:接收语音识别系统输出的多个候选识别结果,将所述多个候选识别结果分别与知识库中的模板进行匹配,其中,所述知识库包括实体词表和模板,所述实体词表存储实体词,所述模板存储符合正则表达式的书写规则语句;
若所述多个候选识别结果与知识库中的模板匹配均不成功,则计算多个候选识别结果与知识库中存储的模板的距离;
根据所述距离和多个候选识别结果的信任度得到多个候选识别结果的匹配分值,根据所述匹配分值将所述多个候选识别结果分别与知识库中的模板进行匹配,得到所述多个候选识别结果与知识库中的模板的匹配度;
根据所述匹配度,输出匹配后的识别结果。
优选地,所述计算多个候选识别结果与知识库中存储的模板的距离的步骤包括:
通过编辑距离修正公式计算多个候选识别结果与知识库中存储的模板的距离,包括:
通过第一编辑距离修正公式,计算多个候选识别结果与知识库中存储的模板的第一距离,其中,所述第一编辑距离修正公式用于根据多个候选识别结果的字符串转换为知识库中存储的模板的字符串的距离和插入错误的算法参数得到多个候选识别结果与知识库中存储模板之间的距离;
通过第二编辑距离修正公式,计算多个候选识别结果与知识库中存储的模板的第二距离,其中,所述第二编辑距离修正公式用于根据多个候选识别结果的字符串转换为知识库中存储的模板的字符串的距离和删除错误的算法参数得到多个候选识别结果与知识库中存储模板之间的距离;
通过第三编辑距离修正公式,计算多个候选识别结果与知识库中存储的模板的第三距离,其中,所述第三编辑距离修正公式用于根据多个候选识别结果的字符串转换为知识库中存储的模板的字符串的距离和多个候选识别结果字符串的音素与知识库中存储的模板的字符串的标准音素的失配分值得到多个候选识别结果与知识库中存储模板之间的距离;
将所述第一距离、第二距离和第三距离中的最小值确定为所述多个候选识别结果与知识库中存储的模板的距离。
优选地,所述第一编辑距离修正公式为:D(N,M)=D(i-1,j)+c;
所述第二编辑距离修正公式为:D(N,M)=D(i,j-1)+v;
所述第三编辑距离修正公式为:D(N,M)=D(i-1,j-1)+d(w,v);
其中,i为多个候选识别结果的字符串,j为知识库中存储的模板的字符串,c和v为算法参数,c为插入错误失配权重,v为删除错误失配权重,d(w,v)为多个候选识别结果第i-1个字符串的音素与知识库中存储的模板的第j-1个字符串的标准音素的失配分值,D(N,M)为多个候选识别结果与知识库中存储的模板的距离。
优选地,所述d(w,v)通过以下方式获得:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科汇联信息技术有限公司,未经北京中科汇联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410205944.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:具有带变化直径的冷却通道的涡轮机部件
- 下一篇:一种用于加工汽车转向节的夹具