[发明专利]一种终端硬件和算法软件处理相结合的离线语音识别方法在审
申请号: | 202110186016.6 | 申请日: | 2021-02-14 |
公开(公告)号: | CN114944155A | 公开(公告)日: | 2022-08-26 |
发明(设计)人: | 许兵;高君效 | 申请(专利权)人: | 成都启英泰伦科技有限公司 |
主分类号: | G10L15/16 | 分类号: | G10L15/16;G10L15/32;G10L25/87;G06N3/063 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610041 四川省成都市高*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 终端 硬件 算法 软件 处理 相结合 离线 语音 识别 方法 | ||
一种终端硬件和算法软件处理相结合的离线语音识别方法及芯片,包括如下步骤:S1.麦克风实时抓取外部的模拟语音信号;S2.将第一缓存中的数据搬运到语音预处理模块;S3.得到洁净语音信号,将该洁净语音信号存放;S4.直接内存访问模块将洁净语音信号同时发送到语音端点检测模块和硬件计算模块;S5.语音端点检测模块计算判断所述洁净语音信号是否是有效语音信号;S6.计算语音声学特征;S7.神经网络计算模块针对语音声学特征进行计算,CPU进行语音识别处理。本发明将芯片中的CPU和各个硬件计算模块,通过有效的并行处理方式进行了连接,通过数据并行搬运,可以降低CPU处理能力要求,降低了芯片成本。
技术领域
本发明属于语音识别技术领域,具体涉及一种终端硬件和算法软件处理相结合的离线语音识别方法。
背景技术
语音识别技术发展已经有多年,尤其是近年来随着神经网络技术的逐步成熟,大量语音识别采用了神经网络技术,提升了识别的准确率,也使得语音识别开始逐步得到真正的商用。语音识别中应用神经网络技术需要算法和硬件算力的配合,主流做法是采用云端语音识别技术,类似于现有技术中智能音箱的语音识别和智能手机上的语音助手等,都是将语音从终端采集到后,上传到服务器中,由服务器硬件运行相关语音识别算法进行处理,得到结果后再反馈给终端。
采用云端语音识别可以解决语音所需要的算力问题,可以得到比较好的语音识别效果,但用云端语音识别也存在语音隐私安全泄露,以及依赖网络,实时性不好的问题,在如控制类等应用场合并不完全适用。因此行业也需要离线的语音识别技术方案。而在离线语音识别中,由于无法调用云端硬件资源,终端硬件处理能力有限,且终端产品对成本和性能,包括响应时间、判断准确率等综合要求都较高,如何利用有限的硬件处理资源,结合算法软件设计高性价比,高实时性以及高识别率的语音识别方法是一个具备挑战性的技术问题。
发明内容
为克服现有技术存在的缺陷,本发明公开了一种终端硬件和算法软件处理相结合的离线语音识别方法。
本发明所述终端硬件和算法软件处理相结合的离线语音识别方法,其特征在于,包括如下步骤:
S1.麦克风实时抓取外部的模拟语音信号,发送到离线语音识别芯片内部的语音数据采集模块;语音数据采集模块将该模拟语音信号转化为数字语音信号,通过芯片内部的直接内存访问模块发到第一缓存;
S2.CPU对第一缓存的数据量进行监控,当第一缓存中的数据积累到一预设的门限值时,由CPU将第一缓存中的数据搬运到语音预处理模块;
S3.语音预处理模块接收到CPU从第一缓存传来的数字语音信号时,对该信号进行处理,得到洁净语音信号,并通知CPU,由CPU将该洁净语音信号存放到第二缓存中;
S4.直接内存访问模块将第二缓存中的洁净语音信号同时发送到语音端点检测模块和硬件计算模块;
S5.语音端点检测模块计算判断所述洁净语音信号是否是有效语音信号,以及所述有效语音信号的开始和结束端点,如果是有效语音信号则通知硬件计算模块并发送开始和结束端点信息进入S6步骤;不是则终止并继续等待下一次处理;
S6.硬件计算模块根据语音端点检测模块的通知判断直接内存访问模块发来的洁净语音信号是否是有效语音信号;如果是有效语音信号,获取语音端点检测模块发来的有效语音信号的开始和结束端点;硬件计算模块计算得到语音声学特征并通知CPU,进入S7步骤;如果不是有效语音信号,不处理之前发来的洁净语音信号数据并进入等待下一次洁净语音信号数据的状态;
S7.CPU将硬件计算模块计算出的语音声学特征结果数据存放到神经网络处理前置缓存;直接内存访问模块并行将语音声学特征结果发送到神经网络计算模块,神经网络计算模块实时读取芯片外部FLASH存储器中存放的声学模型参数,对语音声学特征结果数据进行神经网络计算;
计算完成后的结果数据通过直接内存访问模块并行实时传输到第三缓存SRAM 3中,同时通知CPU进行语音识别处理。
优选的,所述S3中,所述处理包括进行降噪、滤波、语音增强及声源定位。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都启英泰伦科技有限公司,未经成都启英泰伦科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110186016.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种控制方法及装置
- 下一篇:一种中空内置百叶玻璃生产工艺