[发明专利]一种基于深度学习的智能工业机器人语音交互与控制方法在审
| 申请号: | 201710027763.9 | 申请日: | 2017-01-16 |
| 公开(公告)号: | CN106898350A | 公开(公告)日: | 2017-06-27 |
| 发明(设计)人: | 李莹莹;肖南峰 | 申请(专利权)人: | 华南理工大学 |
| 主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L21/02;G10L21/0216 |
| 代理公司: | 广州市华学知识产权代理有限公司44245 | 代理人: | 罗观祥 |
| 地址: | 510640 广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种基于深度学习的智能工业机器人语音交互与控制方法,包括步骤1)语音转化为语谱图,通过FFT方法将原始语音转化为一张可以作为输入的图像;2)对整句语音建模,将语谱图作为输入对卷积神经网络进行无监督的训练;3)将卷积神经网络的输出序列O与标签T进行比较,通过BP算法对卷积神经网络进行有监督的调整;4)将特定的文本信息作为控制指令输入给机器人。本发明将语音识别技术与工业机器人相结合,改变了传统的生产方式,减轻了工人劳动强度,提高劳动生产率,促进了工业技术向智能化方向发展。 | ||
| 搜索关键词: | 一种 基于 深度 学习 智能 工业 机器人 语音 交互 控制 方法 | ||
【主权项】:
一种基于深度学习的智能工业机器人语音交互与控制方法,其特征在于,包括以下步骤:1)将语音转化为语谱图,通过短时傅里叶变换FFT方法将原始语音转化为一张能够作为输入的图像,具体是:利用短时傅里叶变换FFT方法对原始语音信号的每一帧进行处理,通过时间抽取算法和频率抽取算法得到由时域和频域两个维度组成的语谱图,其中,在频率抽取过程中,对不需要的频率进行压缩处理,从而降低噪音影响;2)对整句语音建模,将由步骤1)得到的语谱图作为特征图输入到一个由多个卷积层组成的神经网络中,这里的卷积层与全连接层不同,它是非全连接层,非全连接是指后一层的输出与前一层的部分输入相关,而全连接则是认为后一层的输出与前一层的全部输入都相关,其中,每个卷积层都包括卷积、非线性变换和下采样三个阶段,具体如下:2.1)卷积阶段:假设n1是输入语音信号的帧数,n2和n3分别对应每一帧特征图的时域维度和频域维度,即有n1个n2×n3大小的二维特征图组成的三维数组,将每个输入特征图记为xi,卷积后的结果y也是一个三维数组,每个输出特征图记为yj,链接xi和yj的权重记为wij,则yj=bj+Σiwij*xi]]>其中,*表示二维离散卷积运算符,bj是偏置项;2.2)非线性阶段:将卷积阶段输出的特征y作为输入,进行非线性变换R=h(y),采用收敛速度较快的不饱和非线性函数ReLU,具体函数公式为:R=max(0,y)2.3)下采样阶段:采用最大池化的操作,依据定义的邻域窗口大小计算特定范围内的数据最值PM;将上述的卷积层进行三次堆叠,前一层的输出作为后一层的输入,组成卷积神经网络,其中,最后一个卷积层的下采样阶段输出的特征图与一个全连接层相连接,得到输出序列O;3)将卷积神经网络的输出序列O与标签T进行比较,这里的标签T指的是预定义在网络中的命令,用于与网络识别的命令做比较,比较结果所得的误差E大于预设阈值时,用反向传播BP算法对网络权值进行调整,直至E小于预设阈值时就认为收敛,训练结束,输出文本信息结果;4)将步骤3)输出的文本信息结果作为控制命令,机器人接收到特定的命令后,做出相应的动作。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710027763.9/,转载请声明来源钻瓜专利网。





