[发明专利]智能家居协同麦克风语音控制的系统及其控制方法有效
| 申请号: | 201510740405.3 | 申请日: | 2015-11-03 |
| 公开(公告)号: | CN105427861B | 公开(公告)日: | 2019-02-15 |
| 发明(设计)人: | 胡旻波 | 申请(专利权)人: | 胡旻波 |
| 主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/34;G05B13/04 |
| 代理公司: | 无锡华源专利商标事务所(普通合伙) 32228 | 代理人: | 聂启新 |
| 地址: | 214000 江苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 智能家居 协同 麦克风 语音 控制系统 控制 方法 | ||
1.一种智能家居协同麦克风语音控制系统,其特征在于:包括信号采集模块、控制中枢模块和云服务器;所述信号采集模块采集语音信号;所述控制中枢模块对语音信号进行降噪处理;所述云服务器识别并解析语音信号;
所述控制中枢模块包括语音监听模块、数据融合模块和降混响预处理模块;
所述语音监听模块包括:
接收线程:对第i个麦克风,1≤i≤M∑,采集其实时录音信号yi(t),直至实时录音信号样本点的录音文件写满一个内存缓冲区,即采集到512个时域信号样本点;
所述实时录音信号yi(t)为:
yi(t)=si(t)+ni(t);
ni(t)为实时噪音信号,si(t)为语音信号;如果用户未发出语音信号,则si(t)为0;
平滑模块:将本缓冲区与前个缓冲区中的512个实时录音信号样本点一起,共同采用长度为1024汉宁窗进行平滑处理;
FFT变换模块:对经过平滑模块平滑处理之后的数据进行快速傅里叶变换,将原时域信号变换为频域信号;
方差计算模块:由FFT变换模块所得到的频域信号Yi(k)中,语音信号组成语音谱,噪音信号组成噪音谱;计算语音谱的方差λS,i(k)及噪音谱的方差λN,i(k);
信噪比计算模块:根据方差计算模块的输出结果,计算先验信噪比ξk,i和后验信噪比γk,i,分别为:
指示函数计算模块:根据信噪比计算模块的输出结果,计算指示函数Λk,i:
判别函数计算模块:根据指示函数计算模块的输出结果,计算判别函数Pi:
如果判别函数Pi大于阈值η=0.95,则说明监测到语音,否则说明没有监测到语音;如果任意一个麦克风监测到语音,则说明有用户在说话,启动所有麦克风录音发送线程,向数据融合模块发射语音信号,并向服务器发送处理信号;
所述数据融合模块包括:
STFT变换模块:对各路不同麦克风阵列的通道进行短时傅里叶变换,每一帧长512样本点,帧移256,平滑窗为汉宁窗;将原有的时域信号谱转换为时频谱Ym,i(t,k);t和k分别为时间帧和频带坐标;
第一向量构建模块:对每一个阵列系统构建向量ym(t,k):
T为转置操作符;省略时间帧和频带坐标之后,ym(t,k)简记为ym;由STFT变换的线性性质,有:
ym=sm+nm;
对所有阵列构建一个新向量y(t,k):
y(t,k)=[y1(t,k)T,y2(t,k)T,…,yM(t,k)T]T;
同样省略时间帧和频带坐标,有:
y=s+n;
自相关矩阵构建模块:根据向量构建模块得到的与时频谱相关的向量,根据前10帧,对每一个频带,估计噪音谱的自相关矩阵Rn,n(t,k):
Rn,n(t,k)=λRn,n(t-1,k)+(1-λ)n(t,k)n(t,k)H;
H代表厄尔米特转置,平滑因子λ=0.995;
对每一个频带,每一时间帧,估计混合谱的自相关矩阵Ry,y(t,k):
Ry,y(t,k)=λRy,y(t-1,k)+(1-λ)y(t,k)y(t,k)H;
平滑因子λ=0.995;
计算语音谱的自相关矩阵Rs,s(t,k):
Rs,s(t,k)=Ry,y(t,k)-Rn,n(t,k);
目标函数优化模块:对每一个麦克风阵列系统,省略时间帧和频带坐标,构建优化目标函数Jm(Wm):
E为期望算符;
最优滤波器构造模块:根据目标函数优化模块得到的结果,最小化上述目标函数,即argminWmJm(Wm),得到最优滤波器
其中是一个复数域矩阵,Γm为对角矩阵:
语音信号融合模块:根据最优滤波器构造模块所构造的最优滤波器,计算融合后的语音信号
原阵列系统共有Ωm路语音数据,经过融合之后,转化成1路数据;噪音得到抑制;
所述降混响预处理模块包括线性预测系数估计总模块;
所述降混响预处理模块以语音融合的输出为输入,即输入D为:
通过在每一个频带线性预测的方式抑制掉房间反射,每一个频带的线性预测系数g(k)为:
gm(k)=[gm(k,0),gm(k,1),…,gm(k,Lg-1)]T
线性预测阶数Lg=13;
所述线性预测系数估计总模块包括:
第二向量构造模块:构造向量dm(k):
N为时间帧的数量;
复数矩阵构造模块:根据dm(k)构造延迟τ帧的复数矩阵
整合全部子系统数据成复数矩阵Dτ(k):
Dτ(k)=[Dτ,1(k),Dτ,1(k),…,Dτ,M(k)];
隐变量初始化模块:初始化隐变量
线性预测系数估计模块:估计线性预测系数
Λ为对角矩阵算子;
混响后语音估计模块:估计降混响后的语音信号
隐变量优化模块:最小化如下优化函数,迭代估计隐变量:
log为自然对数算子,得到隐变量估计
所述隐变量优化模块的输出信号返回线性预测系数估计模块,迭代五次之后,混响后语音估计模块输出最后的语音信号。
2.一种使用如权利要求1所述的智能家居协同麦克风语音控制系统进行语音控制的方法,其特征在于:所述信号采集模块为协同麦克风或/和智能移动终端;
A、当信号采集模块为协同麦克风时,控制方法具体包括以下步骤:
步骤A1、协同麦克风接收到语音信号;
步骤A2、协同麦克风向语音监听模块提出请求,要求一次语音处理,所述语音监听模块对麦克风阵列进行语音监听;语音监听模块进行语音监听的具体步骤为:
步骤A21、语音监听模块接收到语音处理请求后,新建一个接收线程并将接收线程的端口号通知给协同麦克风;协同麦克风接收到端口号后与接收线程建立连接,开始传输语音数据;所述麦克风阵列有M个,第m个麦克风阵列包括麦克风Ωm个,1≤Ωm;麦克风总数MΣ为:
步骤A22、对第i个麦克风,1≤i≤M∑,采集其实时录音信号yi(t),直至实时录音信号样本点的录音文件写满一个内存缓冲区,即采集到512个时域信号样本点;
所述实时录音信号yi(t)为:
yi(t)=si(t)+ni(t);
ni(t)为实时噪音信号,si(t)为语音信号;如果用户未发出语音信号,则si(t)为0;
步骤A23、与前个缓冲区中的512个实时录音信号样本点一起,共同采用长度为1024汉宁窗进行平滑处理;
步骤A24、对平滑处理之后的数据进行快速傅里叶变换,将原时域信号变换为频域信号;所述频域信号的频带数K=513,第i个信号的频带系数Yi(k)为复数;
步骤A25、所述语音信号组成语音谱,噪音信号组成噪音谱;计算语音谱的方差λS,i(k)及噪音谱的方差λN,i(k);
步骤A26、计算先验信噪比ξk,i和后验信噪比γk,i,分别为:
步骤A27、计算指示函数Λk,i:
步骤A28、计算判别函数Pi:
如果判别函数Pi大于阈值η=0.95,则说明监测到语音,否则说明没有监测到语音;如果任意一个麦克风监测到语音,则说明有用户在说话,启动所有麦克风录音发送线程,并向服务器发送信号;
步骤A3、将不同麦克风阵列的结果进行数据融合;1≤m≤M,代表第m个麦克风阵列系统,1≤i≤Ωm代表该阵列系统第i个麦克风
步骤A31、对各路不同麦克风阵列的通道计算短时傅里叶变换,
每一帧长512样本点,帧移256,平滑窗为汉宁窗;变换后结果为时频谱Ym,i(t,k);t和k分别代表时间帧和频带坐标;
步骤A32、对每一个阵列系统构建向量ym(t,k):
T为转置操作符;省略时间帧和频带坐标,ym(t,k)简记为ym;由STFT变换的线性性质,有:
ym=sm+nm;
步骤A33、对所有阵列构建一个新向量y(t,k):
y(t,k)=[y1(t,k)T,y2(t,k)T,…,yM(t,k)T]T;
同样省略时间帧和频带坐标,有:
y=s+n;
步A34、根据前10帧,对每一个频带,估计噪音谱的自相关矩阵Rn,n(t,k):
Rn,n(t,k)=λRn,n(t-1,k)+(1-λ)n(t,k)n(t,k)H;
上坐标H为厄尔米特转置,平滑因子λ=0.995;
步骤A35、对每一个频带,每一时间帧,估计混合谱的自相关矩阵Ry,y(t,k):
Ry,y(t,k)=λRy,y(t-1,k)+(1-λ)y(t,k)y(t,k)H;
平滑因子λ=0.995;
步骤A36、计算语音谱的自相关矩阵Rs,s(t,k):
Rs,s(t,k)=Ry,y(t,k)-Rn,n(t,k);
步骤A37、对每一个麦克风阵列系统,省略时间帧和频带坐标,构建优化目标函数Jm(Wm):
E代表期望算符;
步骤A38、最小化上述目标函数,即得到最优滤波器
其中是一个复数域矩阵,Γm为对角矩阵:
步骤A39、根据步骤28得到的最优滤波器,计算融合后的语音信号
原阵列系统共有Ωm路语音数据,经过融合之后,转化成1路数据;噪音得到抑制;
步骤A4、降混响预处理,抑制房间的反射,保证用户发布的语音指令来自同一个方向;
以语音融合的输出为输入,即输入D为:
通过在每一个频带线性预测的方式抑制掉房间反射,每一个频带的线性预测系数g(k)为:
gm(k)=[gm(k,0),gm(k,1),…,gm(k,Lg-1)]T
线性预测阶数Lg=13;
所述线性预测系数g(k)的估计方法为:
步骤A41、构造向量dm(k):
N为时间帧的数量;
步骤A42、根据dm(k)构造延迟τ帧的复数矩阵
步骤A43、整合全部子系统数据成一个复数矩阵:
Dτ(k)=[Dτ,1(k),Dτ,1(k),…,Dτ,M(k)];
步骤A44、初始化隐变量
步骤A45、迭代估计线性预测系数
Λ为对角矩阵算子;
步骤A46、迭代估计降混响后语音
步骤A47、最小化如下优化函数迭代估计隐变量:
log为自然对数算子,得到隐变量估计
步骤A48、迭代步骤35至步骤37,共迭代5次;迭代结束后,即为原语音估计;
步骤A5、将语音提交给云服务器,进行语音识别,并根据识别结果发送控制指令至相应的家具应用终端;一次数据提交结束;
B、当信号采集模块为智能移动终端时,控制方法具体包括以下步骤:
步骤B1、智能移动终端对语音信号进行采集:用户操作智能移动终端的UI界面,请求开始录音;
步骤B2、智能移动终端新建录音线程,并开始录音;同时向用户发出提示说话的信号;
步骤B3、用户开始发出语音指令;
步骤B4、智能移动终端录音,并将语音数据发送到云服务器;
步骤B5、云服务器进行语音识别,并根据识别结果发送控制指令至相应的家具应用终端;同时通过操作界面提示用户命令发送成功;一次数据提交结束。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于胡旻波,未经胡旻波许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510740405.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种双接口OTG可移动存储装置
- 下一篇:一种吸声板





