[发明专利]目标说话人的唤醒词识别方法及装置在审
申请号: | 202111549116.7 | 申请日: | 2021-12-17 |
公开(公告)号: | CN114220418A | 公开(公告)日: | 2022-03-22 |
发明(设计)人: | 周琳岷 | 申请(专利权)人: | 四川启睿克科技有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L25/24;G10L15/16;G10L15/26 |
代理公司: | 成都虹桥专利事务所(普通合伙) 51124 | 代理人: | 陈春光 |
地址: | 610000 四川省成都市中国(四川)*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标 说话 唤醒 识别 方法 装置 | ||
1.目标说话人的唤醒词识别方法,其特征在于,包括以下步骤:
步骤1、采集说话人的语音信号,在所述语音信号上按预设窗长滑动,得到多个窗口,每个窗口对应一段语音信号,针对每个窗口对应的语音信号,分别执行步骤2-5;
步骤2、提取语音信号中的语音声学特征;
步骤3、根据所述语音声学特征并基于预先训练的风格特征模型提取语音信号的风格特征信息,根据所述语音声学特征并基于预先训练的内容特征提取模型提取语音信号的内容特征信息;
步骤4、将所述内容特征信息与风格特征信息进行结合生成新的语音特征信息,根据所述新的语音特征信息并基于预先训练的唤醒词检测模型得到语音信号中出现唤醒词的概率;
步骤5、判断所述概率是否大于或等于第一预设值,若是,则判定语音信号中出现唤醒词,所述唤醒词为目标说话人对应的唤醒词;
步骤6、确定语音信号中出现唤醒词的窗口数量,判断所述窗口数量是否大于或等于第二预设阈值,若是,则判定识别到唤醒词并产生激活信号。
2.如权利要求1所述的目标说话人的唤醒词识别方法,其特征在于,步骤1中,所述预设窗长与唤醒词长度一致。
3.如权利要求1所述的目标说话人的唤醒词识别方法,其特征在于,步骤2中,所述提取语音信号中的语音声学特征,具体包括:
对语音信号进行加窗傅里叶变化后得到线性特征,对所述线性特征进行梅尔滤波处理得到语音声学特征。
4.如权利要求1所述的目标说话人的唤醒词识别方法,其特征在于,步骤3中,根据所述语音声学特征并基于预先训练的风格特征模型提取语音信号的风格特征信息,具体包括:
获取不同人物的第一语音样本,根据所述第一语音样本训练深度神经网络,得到风格特征识别模型;
将所述语音声学特征输入至所述风格特征识别模型中,得到语音信号的风格特征信息。
5.如权利要求1所述的目标说话人的唤醒词识别方法,其特征在于,步骤3中,根据所述语音声学特征并基于预先训练的内容特征提取模型提取语音信号的内容特征信息,具体包括:
获取包含和不包含唤醒词的第二语音样本,根据所述第二语音样本训练深度神经网络,得到内容特征提取模型;
将所述语音声学特征输入至所述内容特征提取模型中,得到语音信号的内容特征信息。
6.如权利要求1所述的目标说话人的唤醒词识别方法,其特征在于,步骤4中,根据所述新的语音特征信息并基于预先训练的唤醒词检测模型得到语音信号中出现唤醒词的概率,具体包括:
获取不同人物对应的包含与不包含唤醒词的第三语音样本,根据所述第三语音样本训练深度学习网络,得到唤醒词检测模型;
将所述新的语音特征信息输入至唤醒词检测模型中,得到目标说话人对应的唤醒词出现的概率。
7.如权利要求1所述的目标说话人的唤醒词识别方法,其特征在于,还包括:
保存目标说话人对应的没有识别以及误识别的唤醒词对应的语音信号,并根据保存的语音信号重新训练唤醒词检测模型,以实现对唤醒词检测模型的更新。
8.如权利要求7所述的目标说话人的唤醒词识别方法,其特征在于,所述根据保存的语音信号重新训练唤醒词检测模型,具体包括:
将目标说话人对应的没有识别的唤醒词对应的语音信号作为正样本,将目标说话人对应的误识别的唤醒词对应的语音信号作为负样本,当正负样本的数量达到第三预设阈值后,根据正负样本重新训练唤醒词检测模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川启睿克科技有限公司,未经四川启睿克科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111549116.7/1.html,转载请声明来源钻瓜专利网。