[发明专利]一种基于深度学习的智能工业机器人语音交互与控制方法在审
| 申请号: | 201710027763.9 | 申请日: | 2017-01-16 |
| 公开(公告)号: | CN106898350A | 公开(公告)日: | 2017-06-27 |
| 发明(设计)人: | 李莹莹;肖南峰 | 申请(专利权)人: | 华南理工大学 |
| 主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L21/02;G10L21/0216 |
| 代理公司: | 广州市华学知识产权代理有限公司44245 | 代理人: | 罗观祥 |
| 地址: | 510640 广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 学习 智能 工业 机器人 语音 交互 控制 方法 | ||
技术领域
本发明涉及深度学习及工业机器人语音控制的技术领域,尤其是指一种基于深度学习的智能工业机器人语音交互与控制方法。
背景技术
一直以来,语音作为人类特有的能力,是人与其他动物最本质的区别,也是人类之间交流以及获取外界信息资源的最重要的工具和渠道。21世纪是信息技术蓬勃发展的时代,语音识别技术作为这个洪流中人机交互分支的一个重要组成,是人机交互的重要接口,使得人类和机器的交互更加自动化、智能化,实现了让机器听得懂人类语言的主要途径,推动了人工智能的发展。因此,将语音识别技术和机器人控制技术相结合,更体现了技术自动化和智能化。在我国,机器人被应用到很多领域,而且随着语音识别技术在机器人控制中的应用,机器人的应用领域在不断扩大。例如,将语音识别技术与工业机器人相结合,改变了传统的生产方式,减轻工人劳动强度,提高劳动生产率,促进了工业技术向智能化方向发展。
目前,国内外关于基于语音识别的机器人控制技术的研究已经很多了。例如,国内有白琳在基于语音识别的机器人控制技术的研究中对语音特征参数提取方法进行了改进,将传统的MFCC特征参数与共振峰参数相结合,提出了新的语音特征参数提取方法;国外,有美国、日本、德国等对智能服务机器人控制技术进行研究。
近年来,随着深度学习热潮的再次涌起,基于深度神经网络的语音识别系统的研究随之火热,目前最好的语音识别系统采用双向长短时记忆网络(LSTM,Long Short Term Memory),但是这以系统训练复杂度高、解码时间长,在工业的实时识别系统中难以广泛应用,尤其是在工厂巨大噪音的环境下更加难以识别。因此需要一种基于深度学习的智能工业机器人语音交互与控制方法,使得机器人能在嘈杂的作业环境中准确识别人类语音命令。
发明内容
本发明的目的在于克服现有技术的不足,提出了一种基于深度学习的智能工业机器人语音交互与控制方法,该方法考虑了工厂中嘈杂的作业环境问题,减少了语音系统训练的复杂度和时间,实现了更好的语音交互与机器人控制。
为实现上述目的,本发明所提供的技术方案为:一种基于深度学习的智能工业机器人语音交互与控制方法,包括以下步骤:
1)将语音转化为语谱图,通过短时傅里叶变换FFT方法将原始语音转化为一张能够作为输入的图像,具体是:利用短时傅里叶变换FFT方法对原始语音信号的每一帧进行处理,通过时间抽取算法和频率抽取算法得到由时域和频域两个维度组成的语谱图,其中,在频率抽取过程中,对不需要的频率进行压缩处理,从而降低噪音影响;
2)对整句语音建模,将由步骤1)得到的语谱图作为特征图输入到一个由多个卷积层组成的神经网络中,这里的卷积层与全连接层不同,它是非全连接层,非全连接是指后一层的输出与前一层的部分输入相关,而全连接则是认为后一层的输出与前一层的全部输入都相关,其中,每个卷积层都包括卷积、非线性变换和下采样三个阶段,具体如下:
2.1)卷积阶段:假设n1是输入语音信号的帧数,n2和n3分别对应每一帧特征图的时域维度和频域维度,即有n1个n2×n3大小的二维特征图组成的三维数组,将每个输入特征图记为xi,卷积后的结果y也是一个三维数组,每个输出特征图记为yj,链接xi和yj的权重记为wij,则
其中,*表示二维离散卷积运算符,bj是偏置项;
2.2)非线性阶段:将卷积阶段输出的特征y作为输入,进行非线性变换R=h(y),采用收敛速度较快的不饱和非线性函数ReLU,具体函数公式为:
R=max(0,y)
2.3)下采样阶段:采用最大池化的操作,依据定义的邻域窗口大小计算特定范围内的数据最值PM;
将上述的卷积层进行三次堆叠,前一层的输出作为后一层的输入,组成卷积神经网络,其中,最后一个卷积层的下采样阶段输出的特征图与一个全连接层相连接,得到输出序列O;
3)将卷积神经网络的输出序列O与标签T进行比较,这里的标签T指的是预定义在网络中的命令,用于与网络识别的命令做比较,比较结果所得的误差E大于预设阈值时,用反向传播BP算法对网络权值进行调整,直至E小于预设阈值时就认为收敛,训练结束,输出文本信息结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710027763.9/2.html,转载请声明来源钻瓜专利网。





