[发明专利]一种基于深度学习的智能工业机器人语音交互与控制方法在审

申请号：	201710027763.9	申请日：	2017-01-16
公开（公告）号：	CN106898350A	公开（公告）日：	2017-06-27
发明（设计）人：	李莹莹;肖南峰	申请（专利权）人：	华南理工大学
主分类号：	G10L15/22	分类号：	G10L15/22;G10L21/02;G10L21/0216
代理公司：	广州市华学知识产权代理有限公司44245	代理人：	罗观祥
地址：	510640 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度学习智能工业机器人语音交互控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及深度学习及工业机器人语音控制的技术领域，尤其是指一种基于深度学习的智能工业机器人语音交互与控制方法。

背景技术

一直以来，语音作为人类特有的能力，是人与其他动物最本质的区别，也是人类之间交流以及获取外界信息资源的最重要的工具和渠道。21世纪是信息技术蓬勃发展的时代，语音识别技术作为这个洪流中人机交互分支的一个重要组成，是人机交互的重要接口，使得人类和机器的交互更加自动化、智能化，实现了让机器听得懂人类语言的主要途径，推动了人工智能的发展。因此，将语音识别技术和机器人控制技术相结合，更体现了技术自动化和智能化。在我国，机器人被应用到很多领域，而且随着语音识别技术在机器人控制中的应用，机器人的应用领域在不断扩大。例如，将语音识别技术与工业机器人相结合，改变了传统的生产方式，减轻工人劳动强度，提高劳动生产率，促进了工业技术向智能化方向发展。

目前，国内外关于基于语音识别的机器人控制技术的研究已经很多了。例如，国内有白琳在基于语音识别的机器人控制技术的研究中对语音特征参数提取方法进行了改进，将传统的MFCC特征参数与共振峰参数相结合，提出了新的语音特征参数提取方法；国外，有美国、日本、德国等对智能服务机器人控制技术进行研究。

近年来，随着深度学习热潮的再次涌起，基于深度神经网络的语音识别系统的研究随之火热，目前最好的语音识别系统采用双向长短时记忆网络(LSTM，Long Short Term Memory)，但是这以系统训练复杂度高、解码时间长，在工业的实时识别系统中难以广泛应用，尤其是在工厂巨大噪音的环境下更加难以识别。因此需要一种基于深度学习的智能工业机器人语音交互与控制方法，使得机器人能在嘈杂的作业环境中准确识别人类语音命令。

发明内容

本发明的目的在于克服现有技术的不足，提出了一种基于深度学习的智能工业机器人语音交互与控制方法，该方法考虑了工厂中嘈杂的作业环境问题，减少了语音系统训练的复杂度和时间，实现了更好的语音交互与机器人控制。

为实现上述目的，本发明所提供的技术方案为：一种基于深度学习的智能工业机器人语音交互与控制方法，包括以下步骤：

1)将语音转化为语谱图，通过短时傅里叶变换FFT方法将原始语音转化为一张能够作为输入的图像，具体是：利用短时傅里叶变换FFT方法对原始语音信号的每一帧进行处理，通过时间抽取算法和频率抽取算法得到由时域和频域两个维度组成的语谱图，其中，在频率抽取过程中，对不需要的频率进行压缩处理，从而降低噪音影响；

2)对整句语音建模，将由步骤1)得到的语谱图作为特征图输入到一个由多个卷积层组成的神经网络中，这里的卷积层与全连接层不同，它是非全连接层，非全连接是指后一层的输出与前一层的部分输入相关，而全连接则是认为后一层的输出与前一层的全部输入都相关，其中，每个卷积层都包括卷积、非线性变换和下采样三个阶段，具体如下：

2.1)卷积阶段：假设n₁是输入语音信号的帧数，n₂和n₃分别对应每一帧特征图的时域维度和频域维度，即有n₁个n₂×n₃大小的二维特征图组成的三维数组，将每个输入特征图记为x_i，卷积后的结果y也是一个三维数组，每个输出特征图记为y_j，链接x_i和y_j的权重记为w_ij，则