[发明专利]一种嵌入式语音交互系统有效

申请号：	202010662649.5	申请日：	2020-07-10
公开（公告）号：	CN111833875B	公开（公告）日：	2023-06-06
发明（设计）人：	李重;王利平;徐超;高深	申请（专利权）人：	安徽芯智科技有限公司
主分类号：	G10L15/22	分类号：	G10L15/22;G10L15/26;G10L15/20;G10L21/0208;G10L13/04;G10L13/047
代理公司：	合肥正则元起专利代理事务所(普通合伙) 34160	代理人：	韩立峰
地址：	230000 安徽省合肥市高新区习友路3333***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种嵌入式语音交互系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种嵌入式语音交互系统，其特征在于，包括音频输入模块、信号预处理模块、音频处理模块、本地语音识别模块、云端语音识别模块、仲裁模块、事件路由模块、调度模块、录入模块以及音频输出模块；

所述音频输入模块用于将外界输入的语音，由语音信号转化为数据信号，并发送至信号预处理模块对数据信号进行预处理，所述信号预处理模块用于对输入音频进行回声消除、混响去除、DOA计算、VR噪音消除、蓝牙电话噪音消除，具体预处理步骤如下：

步骤一：对外界输入语音的频率和峰值进行监测和记录以及对外界输入的语音音频进行回声消除；

步骤二：对外界输入的语音进行混响去除；

步骤三：对外界输入的语音进行DOA计算；

步骤四：对外界输入的语音进行VR噪音消除；

步骤五：对外界输入的语音进行蓝牙电话噪音消除；

步骤六：将预处理后的语音的频率和峰值进行监测和记录；

步骤七：将预处理后的音频参数与预处理前的音频参数进行比较；

若预处理后的音频的频率大于预处理前的音频的频率，则再次进行信号预处理；

若预处理后的音频的峰值大于预处理前的音频的峰值，则再次进行信号预处理；

若预处理后的音频的频率小于预处理前的音频的频率，则将预处理后的音频的数据信号发送至音频处理模块；

若预处理后的音频的峰值小于预处理前的音频的峰值，则将预处理后的音频的数据信号发送至音频处理模块；

所述音频处理模块用于在连续的声音流中，标记出语音的开始时刻和结束时刻，主要用于人声检测，经过音频处理模块处理后的音频发送至本地语音识别模块和云端语音识别模块；

所述本地语音识别模块用于在离线情况下实现了唤醒后下达指令，通过tts播报语音与用户互动，面对开车场景中的日常需求，用户可以通过语音指令，跟车机连续问答，实现用户需求，具体使用步骤如下：

在离线情况下，经过音频模块处理后的音频经过离线引擎得到本地识别结果，本地ENLU对于输入语句，首先进行意图识别，获取其意图信号，对于本地支持的意图信号，在进一步提取词槽，若仲裁结果为本地ENLU返回结果，则输出到DM模块进行处理；

所述云端语音识别模块用于联网情况下实现了唤醒后下达指令，调用在线功能，通过tts播报语音与用户互动，可实现导航、音乐、天气、听书、百科知识的跨场景多种语音调令，具体使用步骤如下：

在联网的情况下，经过音频模块处理后的音频经过在线引擎得到云端识别结果，云端NLU对于输入语句，首先进行意图识别，获取其意图信号，若仲裁结果为云端NLU返回结果，则输出到DM模块进行处理；

所述仲裁模块用于给用户提供最准确的回应结果，会内部进行语义解析结果的仲裁，经过一系列的判断分析，给出最终准确结果，具体分析步骤如下：

SS1：用户的每一次语音交互，仲裁模块从引擎接口适配层接收以下数据：本地LASR识别结果、云端NLU输出结果、本地NLU输出结果；

SS2：首先进行本地ENLU语义解析，对ASR识别结果进行意图识别，获取其域和意图，若对于本地支持的意图，再进一步提取词槽；如果该仲裁结果为本地支持处理的意图，置信度很高，无需等待云端NLU返回结果，直接输出本地ENLU结果；

SS3：若步骤2中，本地置信度低，则等待云端NLU结果，有结果则采用云端NLU结果，否则还是使用本地ENLU结果；

SS4：若步骤2中，本地ENLU无法识别ASR识别结果意图，则等待云端NLU结果，有结果则采用云端NLU结果，若云端服务不可用，则输出不理解；

所述事件路由模块用于将事件转发给正确的接收方，通过仲裁模块的音频进入调度模块后生成调度信号并发送至调度模块，所述调度模块是指用户和终端的一次完整交互过程，在意图信号到来时，选择对应的调度器进行处理；当不止一个调度器需要运行时，根据优先级来安排调度器运行、排队、打断和恢复；调度器调度的结果是：同一时间只有一个调度器处于运行状态，其他调度器只能处于等待的状态；

所述音频输出模块用于将经过语音合成模块处理后生成的音频输送出去，与用户到达交流的目的，当调度器接收到意图信号后，选择对应的调度器进行处理，处理完成以后将数据信号发送至音频输出模块，并将其转化成音频信号输送至语音合成模块，音合成模块将其合成为音频，随后通过音频输出模块输送出去。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于安徽芯智科技有限公司，未经安徽芯智科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010662649.5/1.html，转载请声明来源钻瓜专利网。

上一篇：基于TCP/UDP透明代理实现的蜜罐攻击者溯源的方法
下一篇：一种多AP环境下STA选择并切换AP的方法及系统

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种嵌入式语音交互系统有效

专利文献下载