[发明专利]信息处理装置和方法及程序在审
申请号: | 201980036326.0 | 申请日: | 2019-05-23 |
公开(公告)号: | CN112204507A | 公开(公告)日: | 2021-01-08 |
发明(设计)人: | 福永大辅;田中义己;菅沼久浩;西牧悠二 | 申请(专利权)人: | 索尼公司 |
主分类号: | G06F3/01 | 分类号: | G06F3/01;G06T7/70;G06T7/00;G06T7/20;G10L15/28;G06F3/16 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 余刚 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息处理 装置 方法 程序 | ||
本技术涉及一种信息处理装置和方法以及程序,利用该信息处理装置和方法以及程序可以实现更合适的对执行语音识别的控制。信息处理装置配备有控制单元,该控制单元基于指示用户的方位的用户方向信息来结束语音输入接收状态。本技术可以应用于语音识别系统。
技术领域
本技术涉及一种信息处理装置、信息处理方法和程序,并且具体地涉及能够实现更适当的声音识别执行控制的信息处理装置、信息处理方法和程序。
背景技术
具有声音识别功能的一些类型的对话类型代理系统均设置有用于开始声音识别功能的触发,以防止响应于用户的自言自语、环境噪声等的声音识别的故障。
使用触发来开始声音识别功能的方法的典型实例包括在讲出预先确定的特定起始词的情况下开始声音识别的方法,和仅在按下按钮时才接收声音输入的方法。然而,由于这些方法需要在每次对话开始时讲出起始词或按下按钮,并因此给用户带来负担。
同时,还提出了一种根据触发(该触发是用户的视线或面部的方向)来确定是否开始对话的方法(例如,参见专利文献1)。该技术允许用户容易地开始与对话类型代理的对话,而不需要讲出起始词或按下按钮。
现有技术文献
专利文献
专利文献1:日本特开号2014-92627
发明内容
[技术问题]
然而,在专利文献1中描述的仅在特定时间使用视线信息的技术可能导致错误的检测。
例如,在人与人之间的谈话期间用户的视线或者面部意外地暂时指向对话类型代理而没有与该对话类型代理谈话的意图的情况下,对话类型代理违背用户的意图开始声音识别功能,并且返回响应。
因此,难以通过上述技术实现对声音识别的适当执行控制和减少声音识别功能的故障。
已经考虑到这种情况开发了本技术,并且实现了更适当的声音识别执行控制。
[问题的解决方案]
根据本技术的一个方面的信息处理装置包括基于指示用户的方向的用户方向信息来结束声音输入接收状态的控制单元。
根据本技术的一个方面的信息处理方法或程序包括基于指示用户的方向的用户方向信息来结束声音输入接收状态的步骤。
根据本技术的一个方面,基于指示用户的方向的用户方向信息来结束声音输入接收状态。
[发明的有益效果]
根据本技术的一个方面,可实现更合适的声音识别执行控制。
应注意,要产生的有利效果不限于本文描述的有利效果,而是可以是本公开中描述的任何有利效果。
附图说明
[图1]是示出声音识别系统的配置实例的图。
[图2]是说明声音区间检测的图。
[图3]是示出检测到的声音信息的输入的开始和结束的控制实例的图。
[图4]是示出检测到的声音信息的输入的开始和结束的控制实例的图。
[图5]是示出检测到的声音信息的输入的开始和结束的控制实例的图。
[图6]是示出检测到的声音信息的输入的开始和结束的控制实例的图。
[图7]是示出检测到的声音信息的输入的开始和结束的控制实例的图。
[图8]是说明输入接收控制处理的流程图。
[图9]是说明声音识别执行处理的流程图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于索尼公司,未经索尼公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980036326.0/2.html,转载请声明来源钻瓜专利网。