[发明专利]基于音频频域特征的对话过程捂嘴手势识别方法有效
| 申请号: | 202011131535.4 | 申请日: | 2020-10-21 |
| 公开(公告)号: | CN112259124B | 公开(公告)日: | 2021-06-15 |
| 发明(设计)人: | 喻纯;李竹 | 申请(专利权)人: | 交互未来(北京)科技有限公司 |
| 主分类号: | G10L25/51 | 分类号: | G10L25/51;G06F3/16;G06F21/32;H04R1/08;H04R1/10 |
| 代理公司: | 北京君莫知识产权代理事务所(普通合伙) 11715 | 代理人: | 崔云鹤 |
| 地址: | 100015 北京市朝阳区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 音频 特征 对话 过程 手势 识别 方法 | ||
本发明提出基于音频频域特征的对话过程捂嘴手势识别方法,包括如下步骤:S1:建立语音接收组件与移动终端的无线通信;S2:语音接收组件通过第一语音监测通道和第二语音监测通道接收语音输入信号;S3:所述第一语音监测通道将接收的第一语音输入信号发送至所述移动终端;S4:所述移动终端基于内置的声纹识别模型判断当前语音输入是否为授权用户输入S5:第二语音监测通道将接收的第二语音输入信号发送至移动终端;S6:移动终端基于第一语音输入信号和第二语音输入信号各自的音频频域特征比对进行捂嘴手势识别。本发明能够识别用户语音输入过程中的捂嘴手势,捂嘴手势的不同姿势以及连续变化,以支持丰富的语音输入控制操作。
技术领域
本发明属于人机智能交互技术领域,尤其涉及一种基于音频频域特征的对话过程捂嘴手势识别。
背景技术
手势交互、触控交互和语音交互是当下主要的3种交互方式。语音交互需要用户能进行听和说;触控交互需要用户能和设备进行接触;手势交互需要用户的手能自由移动。但在一些场景下,用户并没有条件进行上述交互行为。以医生为例,可能在他已经对双手进行严格消毒后,仍需要查看病人的相关资料。但是他无法确保,所有的屏幕、X光片、档案等都是干净的。这时如果能通过非接触的手势或语音进行操作,就不会有被污染的风险。
用户一直认为使用语音输入与计算设备进行交互是一种方便自然的交互方法。语音输入可用于多种任务,包括文本输入,通信和发送语音命令。但是,语音输入存在两个主要挑战。首先,用户担心在讲话时泄露其个人信息的隐私风险;其次,在多轮语音输入过程中,他们不方便反复讲起唤醒词或按下按钮。
然而,进行语音交互时,用户需要把指令说出来。这其中最主要的实现技术就是唤醒词。当只有自己一人时,说些什么可能都没有关系。但当人多起来时,尤其是不熟悉的人多起来时,当众说一些东西会让用户觉得自己很傻,并且还涉及到隐私保护的问题。现有技术中所有的语音助手,都还是被动地交谈,你必须给出命令,它们才会应答。例如,智能音箱。当人正在与他人进行交流时,使用语音进行交互是一件打断性非常强的事情。例如几个人聊天聊得正嗨,想要播放音乐或调解灯光来营造气氛,突然来一句“小x同学,播放音乐″会显得很突兀。
为解决上述技术问题,本申请人先前提交了几份专利申请,在如下四个方面上提出了多项新的技术方案:1、基于人类说话时风噪声特征的语音输入触发,具体地,通过识别人说话时候的语音和风噪声音来直接启动语音输入并将接收的声音信号作为语音输入处理;2、基于多个麦克风接收的声音信号的差别的语音输入触发;3、基于低声说话方式识别的语音输入触发;4、基于麦克风的声音信号的距离判断的语音输入触发,相关专利申请公开案号为CN110262767A、CN110223711A、CN110428806A、CN110111776A、CN110097875A、CN110164440A,本文将这几篇专利文献全文并入,作为本公开的内容。
进一步的,中国发明专利申请CN202010198596.6提出能够识别用户捂嘴手势下发声的单耳耳机、智能电子便携设备和语音交互唤醒方法。单耳耳机具有耳内麦克风和耳外麦克风,以及具有一块电路板,电路板上具有存储器和处理器,存储器上存储有计算机可执行指令,计算机可执行指令被处理器执行时能够执行如下操作:接收所述耳内麦克风和耳外麦克风采集的信号;分析耳内麦克风和耳外麦克风采集的信号,识别用户是否在做捂嘴手势的状态下发声。所述识别结果可以触发语音输入。
然而,在实际应用中,申请人发现上述方法还存在进一步改进的空间,尤其是在用单侧捂嘴动作对于同一侧耳机外部麦克风收音能量的减少来做捂嘴动作的识别效率方面,现有技术有待进一步提高。
发明内容
为此,本发明提出基于音频频域特征的对话过程捂嘴手势识别方法和相应的计算机可读存贮介质。本发明的技术方案能够基于两路音频的传递函数(transfer function),更加全面的感知和比较两路音频传播途径的区别,进而识别和分类捂嘴手势,同时利用单耳机实现对是否存在捂嘴手势,捂嘴手势的类型,捂嘴手势的连续变化分别进行了识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于交互未来(北京)科技有限公司,未经交互未来(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011131535.4/2.html,转载请声明来源钻瓜专利网。





