[发明专利]一种语音处理方法及设备有效

申请号：	201711481463.4	申请日：	2017-12-29
公开（公告）号：	CN109994106B	公开（公告）日：	2023-06-23
发明（设计）人：	万玉龙;高杰	申请（专利权）人：	阿里巴巴集团控股有限公司
主分类号：	G10L15/22	分类号：	G10L15/22
代理公司：	北京三友知识产权代理有限公司 11127	代理人：	李辉
地址：	英属开曼***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音处理方法设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例公开了一种语音处理方法及设备。所述方法包括：对音频数据进行语音活动性检测，得到语音数据；从所述语音数据中识别出唤醒词；确定所述唤醒词在所述语音数据中的词尾结束时刻；对所述音频数据中以所述词尾结束时刻为起点之后的数据进行第二次语音活动性检测，并识别语音指令。利用本申请提供的语音处理方式进行语音识别，可以准确划分出语音数据中语音指令的起始时刻，避免将唤醒词中冗余信息代入至后续的语音指令中，提高智能语音识别的准确性。

技术领域

本申请涉及智能语音处理技术领域，特别涉及一种语音处理方法及设备。

背景技术

近年来，智能语音交互(Intelligent Speech Interaction)技术得到迅速发展，智能语音交互技术基于语音识别、语音合成、自然语言理解等技术，可以为企业在多种实际应用场景下赋予产品“能听、会说、懂你”式的智能人机交互体验。智能语音交互技术可以适用于智能问答、智能质检、法庭庭审实时记录、实时演讲字幕、访谈录音转写等诸多场景，在金融、保险、司法、电商等多个领域均有应用案例。

在智能语音交互的过程中，一般只有通过语音唤醒之后才可以对智能设备发出语音指令。在语音唤醒的过程中，用户可以通过语音发出预设唤醒词唤醒设备。例如，在一个示例中，智能汽车的唤醒词为“你好，咚咚”，当用户语音发出“你好，咚咚”的唤醒词之后，智能汽车的语音识别系统只有在识别出用户发出正确的唤醒词之后，才可以接收用户发出的语音指令，如播放音乐、导航、拨打电话等等。根据实际的应用需求，用户在说出唤醒词之后，往往会紧接着说出语音指令，例如，在上述示例中，用户可以在一开始发出“你好，咚咚，今天的天气如何”的语音指令。为了满足上述用户需求，现有技术中提出唤醒词及语音语义理解的一体化识别方式，即在通过唤醒词识别之后，紧接着识别唤醒词之后的语音指令。这样，可以实现唤醒与语音操控之间的零间隔和零延迟，减少用户语音操控的步骤，提高效率。但是，现有技术中对唤醒词与语音指令之间间隔时刻的识别方式往往不够准确，导致识别出的语音指令与实际的语音指令存在偏差。

因此，现有技术中亟需一种能够准确识别出唤醒词与语音指令之间间隔时刻的方式。

发明内容

本申请实施例的目的在于提供一种语音处理方法及设备，可以避免将唤醒词中冗余信息代入至后续的语音指令中，提高智能语音识别的准确性。

本申请实施例提供的语音处理方法及设备具体是这样实现的：

一种语音处理方法，所述方法包括：

对音频数据进行语音活动性检测，得到语音数据；

从所述语音数据中识别出唤醒词；

确定所述唤醒词在所述语音数据中的词尾结束时刻；

对所述音频数据中以所述词尾结束时刻为起点之后的数据进行第二次语音活动性检测，并识别语音指令。

一种语音处理设备，包括麦克风、语音活动性检测模块、唤醒词检测模块、语音识别模块，其中，

所述麦克风，用于获取音频数据；

所述语音活动性检测模块，用于对所述音频数据进行语音活动性检测，得到语音数据；