[发明专利]一种基于粒子滤波算法的语音机器人控制方法在审

申请号：	202010826410.7	申请日：	2020-08-17
公开（公告）号：	CN111986667A	公开（公告）日：	2020-11-24
发明（设计）人：	陈刚;陈旺怡	申请（专利权）人：	重庆大学
主分类号：	G10L15/22	分类号：	G10L15/22;G10L15/16;G10L15/06;G10L15/04;G10L15/02;G10L25/24;G10L15/14;G10L15/18;G06K9/62;G06N3/04;G06N3/08
代理公司：	北京同恒源知识产权代理有限公司 11275	代理人：	赵荣之
地址：	400044 重***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于粒子滤波算法语音机器人控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于粒子滤波算法的语音机器人控制方法，其特征在于：该方法包括以下步骤：

第一步：语音识别，设计一种基于深度卷积神经网络算法的语音识别算法，通过训练与测试，得到最终的识别结果；

第二步：目标检测识别，设计一种基于快速卷积神经网络的目标检测算法；

第三步：通过改进的粒子滤波算法对目标物体进行跟踪；

第四步：基于深度强化学习的机械臂控制算法。

2.根据权利要求1所述的一种基于粒子滤波算法的语音机器人控制方法，其特征在于：所述第一步具体为：

首先，将语音信号进行一系列预处理操作后提取能代表此信号的特征参数；其次，根据提取出来的特征参数进行模型训练，分别建立相对应的语言模型和声学模型；最后，提取待识别的语音信号中的特征参数并放入已经建立好的模型中进行匹配，得到识别结果；

1.语音信号的预处理

在特征参数的提取之前，需要对输入的语音进行一系列的预处理，目的是得到一段高保真、去噪的高质量语音信号；

(1)分帧：语音信号从整体上来讲是不平稳的，但在一个极短的时间内，语音信号特性基本保持不变，可以看做是一个准稳态过程，因此要对声音进行分析，就需要对声音分帧，也就是把声音切开成一小段一小段，每小段称为一帧，分帧一般采用交叠分段的方法，这是为了使帧与帧之前平滑过渡，保持其连续性；

(2)预加重：对输入的数字语音信号进行预加重，其目的是为了对语音的高频部分进行加重，去除口唇辐射的影响，以增加语音的高频分辨率；

(3)加窗：减少分帧后导致的帧起始位置与结束位置不连续问题，使信号在分帧后不偏离原始信号；

2.特征参数的提取

通过梅尔频率倒谱系数参数对信号特征进行提取；

3.语言模型的建立

语言模型能够估算代表文字序列本身的最大概率，对语音识别率有着直观的影响；一段自然语言文本看作是一个离散序列，给定长度为N的词的序列a₁,a₂,...,a_n，语言模型的目标就是评估该序列是否合理，即计算该序列的概率：

P(a₁,a₂,...a_n) (1.1)

一段含有3个词的文本序列的概率：

P(a₁,a₂,a₃)＝P(a₁)P(a₂|a₁)P(a₃|a₁,a₂) (1.2)

语言模型的参数就是词的概率以及给定前几个词的情况下的条件概率，P(a₁)即a₁词出现的概率，P(a₂|a₁)表示在a₁词出现的情况下a₂词出现的概率，P(a₃|a₁,a₂)则表示为在a₁与a₂词共同出现的情况下a₃词出现的概率；

统计语言模型采用大规模的训练预料对模型的参数进行自主的学习，认为给定句子出现的概率是句中每个词出现概率的乘积，用如下公式表示：

P(A)＝P(a₁,a₂,a₃,.....,a_n)＝P(a₁)P(a₂|a₁)...P(a_n|a₁,a₂,...,a_n-1) (1.3)

P(A)表示给定句子出现的概率，P(a₁,a₂,...a_n)表示给定句子中N个词出现的概率，P(a_n|a₁,a₂,...,a_n-1)代表在a₁，a₂，...a_n-1词都出现的情况下a_n词出现的概率；

4.声学模型的建立

在声学模型的选择上采用深度神经网络-隐马尔科夫系统，对于输入的语音信号采用连续的拼接帧，对海量数据进行有效建模，将每个时刻的观察即声学特征参数作为输入，以对输入信号的后验概率进行建模，并将后验概率与先验概率进行积分以获得状态的观察概率，再通过底层网络把噪声滤去，把需要的语音信息保存在上层；对于包含L个隐层的深度神经网络，假设输入为l⁰＝a，整个模型表示为：

l⁰＝a (1.4)

lⁿ＝f(dⁿ+Wⁿl^n-1)1≤l≤L (1.5)

y＝Softmax(d^N+1+W^N+1l^N) (1.6)

式中：a表示输入的语音声学特征；{dⁿ,Wⁿ}分别表示N层的偏量与连接权重；f()为隐含层的非线性激活函数，深度神经网络-隐马尔科夫系统采用整流线性单元作为激活函数，f(a)＝max(0,a)；lⁿ为各隐层的输出向量；Softmax函数代表不同单元对应的后验概率。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于重庆大学，未经重庆大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010826410.7/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于通用串行收发接口背板总线交换系统
下一篇：一种交直流带电融冰试验平台和试验方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于粒子滤波算法的语音机器人控制方法在审

专利文献下载