[发明专利]语音识别方法和装置在审
申请号: | 201910594044.4 | 申请日: | 2019-07-03 |
公开(公告)号: | CN110297775A | 公开(公告)日: | 2019-10-01 |
发明(设计)人: | 陈壮壮;李雁南;张彦;王大鹏 | 申请(专利权)人: | 中国工商银行股份有限公司 |
主分类号: | G06F11/36 | 分类号: | G06F11/36;G06F17/27;G10L15/26 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 孙乳笋;王涛 |
地址: | 100140 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 方法和装置 相似度分析 音频信号 应用软件 语音交互 语音识别 语料库 拼接 音频信号转换 语音识别结果 语音识别算法 结束时间点 电话银行 精准定位 流程控制 虚拟声卡 语音内容 成功率 语音 测试 电脑 | ||
本发明提供了一种语音识别方法和装置,该方法包括:获取电脑虚拟声卡的音频信号;将音频信号进行切分;通过语音识别算法将切分后的音频信号转换为文本,并进行文本拼接;将拼接后的文本与电话银行语料库中的文本进行相似度分析;根据相似度分析,确定语音识别结果。本发明能够精准定位语音开始/结束时间点,在语音交互类应用软件语料库完整的情况下,流程控制成功率很高,且能准确识别语音内容,减少语音交互类应用软件的测试时间。
技术领域
本发明涉及语音交互领域,尤其涉及一种语音识别方法和装置。
背景技术
在语音交互类应用软件的测试工作中,涉及大量的语音场景,不同的语音场景有不同的语音专线、语音菜单,目前测试方法主要分为人力测试和半自动化测试。人力测试主要缺陷为测试时间长,每个语音场景都需要经过按键选择、输入指令、听取语音内容等过程,因此人力测试只适用于简单的语音场景测试工作。对于大型复杂的语音场景,目前多采用半自动化测试,使用自动化脚本进行按键、输入指令等操作,但半自动化测试主要有以下缺陷:
1.无法精确定位语音开始/结束时间点,不能在有效时间内进行按键和输入指令操作,经常导致输入错误、输入超时、语音挂断等问题。
2.语音内容代表的含义不明确,对于返回的语音结果需要人为复查。
所以目前的半自动化测试需要测试人员进行人为干预,没有真正实现自动化。
发明内容
为了解决现有技术的不能精确定位语音开始/结束时间点,无法有效控制语音测试流程、不能准确识别语音内容的缺陷,本发明提供了一种语音识别方法和装置。
第一方面,本发明提供一种语音识别方法,所述语音识别方法包括:
获取电脑虚拟声卡的音频信号;
将所述音频信号进行切分;
通过语音识别算法将切分后的音频信号转换为文本,并进行文本拼接;
将拼接后的文本与电话银行语料库中的文本进行相似度分析;
根据所述相似度分析,确定语音识别结果。
进一步地,所述获取电脑虚拟声卡的音频信号包括:
当所述虚拟声卡内的音频脉冲信号超过预设阈值时,则录制虚拟声卡内音频脉冲信号对应的音频信号;
或根据预设的录制时间,录制音频信号。
进一步地,所述根据所述相似度分析,确定语音识别结果包括:
根据拼接后的文本与电话银行语料库中的文本的相似度确定语音识别结果;
若相似度大于预设阈值,则将电话银行语料库中的文本替换为识别文本;
若相似度小于预设阈值,则通过模糊匹配算法和相似度算法,对文本中的词语或文字进行纠正。
进一步地,对所述音频信号做过滤处理。
第二方面,本发明提供一种语音识别装置,所述语音识别装置包括:
音频信号获取模块,用于获取电脑虚拟声卡的音频信号;
切分模块,用于将所述音频信号进行切分;
转换和拼接模块,用于通过语音识别算法将切分后的音频信号转换为文本,并进行文本拼接;
相似度分析模块,用于将拼接后的文本与电话银行语料库中的文本进行相似度分析;
语音识别模块,用于根据所述相似度分析,确定语音识别结果。
进一步地,所述音频信号获取模块包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司,未经中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910594044.4/2.html,转载请声明来源钻瓜专利网。