[发明专利]一种语音处理方法及设备有效
申请号: | 201711481463.4 | 申请日: | 2017-12-29 |
公开(公告)号: | CN109994106B | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 万玉龙;高杰 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 李辉 |
地址: | 英属开曼*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 处理 方法 设备 | ||
本申请实施例公开了一种语音处理方法及设备。所述方法包括:对音频数据进行语音活动性检测,得到语音数据;从所述语音数据中识别出唤醒词;确定所述唤醒词在所述语音数据中的词尾结束时刻;对所述音频数据中以所述词尾结束时刻为起点之后的数据进行第二次语音活动性检测,并识别语音指令。利用本申请提供的语音处理方式进行语音识别,可以准确划分出语音数据中语音指令的起始时刻,避免将唤醒词中冗余信息代入至后续的语音指令中,提高智能语音识别的准确性。
技术领域
本申请涉及智能语音处理技术领域,特别涉及一种语音处理方法及设备。
背景技术
近年来,智能语音交互(Intelligent Speech Interaction)技术得到迅速发展,智能语音交互技术基于语音识别、语音合成、自然语言理解等技术,可以为企业在多种实际应用场景下赋予产品“能听、会说、懂你”式的智能人机交互体验。智能语音交互技术可以适用于智能问答、智能质检、法庭庭审实时记录、实时演讲字幕、访谈录音转写等诸多场景,在金融、保险、司法、电商等多个领域均有应用案例。
在智能语音交互的过程中,一般只有通过语音唤醒之后才可以对智能设备发出语音指令。在语音唤醒的过程中,用户可以通过语音发出预设唤醒词唤醒设备。例如,在一个示例中,智能汽车的唤醒词为“你好,咚咚”,当用户语音发出“你好,咚咚”的唤醒词之后,智能汽车的语音识别系统只有在识别出用户发出正确的唤醒词之后,才可以接收用户发出的语音指令,如播放音乐、导航、拨打电话等等。根据实际的应用需求,用户在说出唤醒词之后,往往会紧接着说出语音指令,例如,在上述示例中,用户可以在一开始发出“你好,咚咚,今天的天气如何”的语音指令。为了满足上述用户需求,现有技术中提出唤醒词及语音语义理解的一体化识别方式,即在通过唤醒词识别之后,紧接着识别唤醒词之后的语音指令。这样,可以实现唤醒与语音操控之间的零间隔和零延迟,减少用户语音操控的步骤,提高效率。但是,现有技术中对唤醒词与语音指令之间间隔时刻的识别方式往往不够准确,导致识别出的语音指令与实际的语音指令存在偏差。
因此,现有技术中亟需一种能够准确识别出唤醒词与语音指令之间间隔时刻的方式。
发明内容
本申请实施例的目的在于提供一种语音处理方法及设备,可以避免将唤醒词中冗余信息代入至后续的语音指令中,提高智能语音识别的准确性。
本申请实施例提供的语音处理方法及设备具体是这样实现的:
一种语音处理方法,所述方法包括:
对音频数据进行语音活动性检测,得到语音数据;
从所述语音数据中识别出唤醒词;
确定所述唤醒词在所述语音数据中的词尾结束时刻;
对所述音频数据中以所述词尾结束时刻为起点之后的数据进行第二次语音活动性检测,并识别语音指令。
一种语音处理设备,包括麦克风、语音活动性检测模块、唤醒词检测模块、语音识别模块,其中,
所述麦克风,用于获取音频数据;
所述语音活动性检测模块,用于对所述音频数据进行语音活动性检测,得到语音数据;
所述唤醒词检测模块,用于从所述语音数据中识别出唤醒词,并确定所述唤醒词在所述语音数据中的词尾结束时刻;
所述语音活动性检测模块,还用于对所述音频数据中以所述词尾结束时刻为起点之后的数据进行第二次语音活动性检测;
所述语音识别模块,用于识别通过所述第二次语音活动性检测的音频数据中的语音指令。
一种语音处理设备,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现所述语音处理方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711481463.4/2.html,转载请声明来源钻瓜专利网。