[发明专利]一种多模态语音端点检测方法及装置有效

申请号：	202010454932.9	申请日：	2020-05-26
公开（公告）号：	CN111768760B	公开（公告）日：	2023-04-18
发明（设计）人：	刘高成	申请（专利权）人：	云知声智能科技股份有限公司;厦门云知芯智能科技有限公司
主分类号：	G10L15/05	分类号：	G10L15/05;G10L25/78
代理公司：	北京冠和权律师事务所 11399	代理人：	安琪
地址：	100000 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种多模态语音端点检测方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种多模态语音端点检测方法及装置，方法包括：获取待检测的视频信息，并对所述视频信息进行处理，以得到带有时间戳的音频信息和图像信息；对所述图像信息中的每一帧图片进行人物对象的检测，并将检测到人物对象的目标帧图片按照人物对象分类存储成按时间顺序排列的目标图片序列；从每个人物对象的所述目标图片序列中提取视觉信息的特征编码，并按照所述目标图片序列的时间戳获取与其时间戳对应的目标音频信息；从所述目标音频信息中提取语音信息的特征编码；将所述视觉信息的特征编码和语音信息的特征编码进行融合，得到融合的多模态特征编码；将所述融合的多模态特征编码输入至分类器中，以得到每个人物对象的语音活动分类结果。

技术领域

本发明涉及语音处理技术领域，更具体地，涉及一种多模态语音端点检测方法及装置。

背景技术

随着人机交互技术的发展，语音识别技术显示出其重要性。在语音识别系统中，语音端点检测技术是非常重要的一项技术，通常也称为语音活动性检测技术(VoiceActivity Detection，VAD)。语音端点检测是指在连续声音信号中找出语音部分的起始点和终止点。

现有的语音端点检测方案，主要通过对语音信号进行提取和分类来确定语音起始点和终止点，但是，此方案在信噪比降低、噪声环境复杂的情况下，检测效果急剧下降。

发明内容

鉴于上述问题，本发明提出了一种多模态语音端点检测方法和相应的装置，其可以有效提高VAD在噪声环境下的性能。

根据本发明实施例的第一方面，提供一种多模态语音端点检测方法，包括：

获取待检测的视频信息，并对所述视频信息进行处理，以得到带有时间戳的音频信息和图像信息；

对所述图像信息中的每一帧图片进行人物对象的检测，当从所述图片中检测到人物对象时，按照人物对象从所述图片中获取每个人物对象对应的目标图片，并将每个人物对象对应的所有目标图片存储成按时间顺序排列的目标图片序列；

从每个人物对象的所述目标图片序列中提取视觉信息的特征编码，并按照所述目标图片序列的时间戳获取与其时间戳对应的目标音频信息；

从所述目标音频信息中提取语音信息的特征编码；