[发明专利]目标说话人的唤醒词识别方法及装置在审
申请号: | 202111549116.7 | 申请日: | 2021-12-17 |
公开(公告)号: | CN114220418A | 公开(公告)日: | 2022-03-22 |
发明(设计)人: | 周琳岷 | 申请(专利权)人: | 四川启睿克科技有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L25/24;G10L15/16;G10L15/26 |
代理公司: | 成都虹桥专利事务所(普通合伙) 51124 | 代理人: | 陈春光 |
地址: | 610000 四川省成都市中国(四川)*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标 说话 唤醒 识别 方法 装置 | ||
本发明涉及语音识别技术领域,公开了一种目标说话人的唤醒词识别方法及装置,旨在解决现有的唤醒词识别方式存在准确率和效率不高的问题,方案主要包括:采集说话人的语音信号,在语音信号上按预设窗长滑动,得到多个窗口,每个窗口对应一段语音信号,其中,预设窗长与唤醒词长度一致。针对每个窗口对应的语音信号,分别确定其中是否出现目标说话人对应的唤醒词;确定语音信号中出现唤醒词的窗口数量,判断所述窗口数量是否大于或等于第二预设阈值,若是,则判定识别到唤醒词并产生激活信号。本发明提高了唤醒词识别的准确率和效率,特别适用于智能家居。
技术领域
本发明涉及语音识别技术领域,具体来说涉及一种目标说话人的唤醒词识别方法及装置。
背景技术
随着家电自动化的发展,人们对家居电器等设备的要求越来越高,通过手动操作进行已经不能满足方便快捷的需要,更多的设备是通过语音来进行控制,但语音控制一直处于等待状态设备的功耗很大,这个时候唤醒词识别的重要性就体现了出来。
但是现有基于唤醒词的语音识别方式中,在目标说话人使用唤醒词进行唤醒的过程中,容易因其他人物说话产生干扰,进而影响唤醒词识别的准确率和效率。
发明内容
本发明旨在解决现有的唤醒词识别方式存在准确率和效率不高的问题,提出一种目标说话人的唤醒词识别方法及装置。
本发明解决上述技术问题所采用的技术方案是:
一方面,提供一种目标说话人的唤醒词识别方法,包括以下步骤:
步骤1、采集说话人的语音信号,在所述语音信号上按预设窗长滑动,得到多个窗口,每个窗口对应一段语音信号,针对每个窗口对应的语音信号,分别执行步骤2-5;
步骤2、提取语音信号中的语音声学特征;
步骤3、根据所述语音声学特征并基于预先训练的风格特征模型提取语音信号的风格特征信息,根据所述语音声学特征并基于预先训练的内容特征提取模型提取语音信号的内容特征信息;
步骤4、将所述内容特征信息与风格特征信息进行结合生成新的语音特征信息,根据所述新的语音特征信息并基于预先训练的唤醒词检测模型得到语音信号中出现唤醒词的概率;
步骤5、判断所述概率是否大于或等于第一预设值,若是,则判定语音信号中出现唤醒词,所述唤醒词为目标说话人对应的唤醒词;
步骤6、确定语音信号中出现唤醒词的窗口数量,判断所述窗口数量是否大于或等于第二预设阈值,若是,则判定识别到唤醒词并产生激活信号。
作为进一步优化,步骤1中,所述预设窗长与唤醒词长度一致。
作为进一步优化,步骤2中,所述提取语音信号中的语音声学特征,具体包括:
对语音信号进行加窗傅里叶变化后得到线性特征,对所述线性特征进行梅尔滤波处理得到语音声学特征。
作为进一步优化,步骤3中,根据所述语音声学特征并基于预先训练的风格特征模型提取语音信号的风格特征信息,具体包括:
获取不同人物的第一语音样本,根据所述第一语音样本训练深度神经网络,得到风格特征识别模型;
将所述语音声学特征输入至所述风格特征识别模型中,得到语音信号的风格特征信息。
作为进一步优化,步骤3中,根据所述语音声学特征并基于预先训练的内容特征提取模型提取语音信号的内容特征信息,具体包括:
获取包含和不包含唤醒词的第二语音样本,根据所述第二语音样本训练深度神经网络,得到内容特征提取模型;
将所述语音声学特征输入至所述内容特征提取模型中,得到语音信号的内容特征信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川启睿克科技有限公司,未经四川启睿克科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111549116.7/2.html,转载请声明来源钻瓜专利网。