[发明专利]一种采用自然语言的分布式智能交互的实现方法及其系统在审
申请号: | 202010594782.1 | 申请日: | 2020-06-28 |
公开(公告)号: | CN111754991A | 公开(公告)日: | 2020-10-09 |
发明(设计)人: | 汪秀英 | 申请(专利权)人: | 汪秀英 |
主分类号: | G10L15/183 | 分类号: | G10L15/183;G10L15/04;G10L15/02;G10L25/78;G06F17/15 |
代理公司: | 长沙正务联合知识产权代理事务所(普通合伙) 43252 | 代理人: | 郑隽;吴婷 |
地址: | 410205 湖南省长沙市高新*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 采用 自然语言 分布式 智能 交互 实现 方法 及其 系统 | ||
1.一种采用自然语言的分布式智能交互的实现方法,其特征在于,所述方法包括:
接收用户语音信号,并对用户语音进行预加重、加窗分帧处理;
利用基于逐级分段的VAD检测方法对用户语音信号中的噪音以及静音帧进行检测;
利用WF-MFCC算法对上述经过预处理的用户语音信号进行特征提取,得到用户语音信号的WF-MFCC特征;
利用结合权重和self-attention机制的LSTM模型对WF-MFCC特征进行提取,得到用户语义特征;
利用基于信息权重的编码-解码过程对用户语义特征进行编码、解码处理;
利用基于用户信息的注意力调整过程实现自然语言的交互式生成。
2.如权利要求1所述的采用自然语言的分布式智能交互的实现方法,其特征在于,所述对用户语音进行预加重、加窗分帧处理,包括:
使用数字滤波器对用户语音信号的频率进行预加重,其公式为:
H(z)=1-μz-1
其中:
z为声音频率;
μ为数字滤波器参数,本发明取为0.9375;
对所述用户语音信号进行分帧处理,将用户语音信号分段为每4毫秒长的帧,使相邻帧之间重叠约0-0.5倍帧长;
对语音信号进行加窗处理,使帧信号的信号平滑降低到零,本发明所选窗函数为汉明窗的窗函数:
其中:
N为窗长;
n为用户语音信号。
3.如权利要求2所述的采用自然语言的分布式智能交互的实现方法,其特征在于,所述基于逐级分段的VAD检测方法为:
先将信号分解到高频和低频空间,再将低频空间a1(n)分解到高频和低频空间,然后继续分解低频空间a2(n),其中用b1(n)~b4(n)以及a4(n)五个子带表征原信号中所有的频率信号,所述逐级分段处理的流程为:
其中:
ai(n),bi(n)分别表示不同的频域空间;
根据求取小波子带系数能量的方法判断语音段是否为静音,所述求取小波子带系数能量公式为:
其中:
为不同层的小波子带系数能量;
为b1(n)~b4(n),a4(n)这些小波子带的小波系数;
N(m)为小波子带中所含有的小波系数的数量;
M为小波子带的个数;
对子带的能量均值以及方差进行计算:
每一个语音帧信号特征矢量,由五个子带的平均能量以及方差构成,因此每一个语音帧信号的特征矢量为:
Yn=[E1,E2,E3,E4,E5,σ2]T
所述特征矢量由六个特征量所组成,看出语音信号在时域和频域上的能量分部,通过能量分部可以看出语音帧的信号特点,设置阈值为ω,其中ω的计算公式为:
ω=2×σ2
当ω<σ2时为无用帧,当σ2<ω<1.2σ2时存在噪音的语音帧,当1.2σ2<ω<1.5σ2时为静音帧。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于汪秀英,未经汪秀英许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010594782.1/1.html,转载请声明来源钻瓜专利网。