[发明专利]一种语音控制方法、装置、设备以及计算机存储介质在审
申请号: | 202111398660.6 | 申请日: | 2021-11-19 |
公开(公告)号: | CN114067797A | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 陈明;冉茂松;张晓帆 | 申请(专利权)人: | 杭州逗酷软件科技有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/26;G06F9/445;G06F9/451 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 钟文聪;张颖玲 |
地址: | 311100 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 控制 方法 装置 设备 以及 计算机 存储 介质 | ||
1.一种语音控制方法,其特征在于,所述方法包括:
接收用户输入的语音数据;
根据当前的图形界面,确定至少一个图像控件;
对所述至少一个图像控件进行图像内容理解,得到所述至少一个图像控件对应的图像描述文本信息;
根据所述语音数据与所述至少一个图像控件对应的图像描述文本信息进行图像控件识别,在所述至少一个图像控件中确定目标图像控件;
根据所述语音数据确定操作指令,向所述目标图像控件发送所述操作指令,以实现对所述目标图像控件的语音控制。
2.根据权利要求1所述的方法,其特征在于,所述根据当前的图形界面,确定至少一个图像控件,包括:
确定当前的图形界面对应的图形界面元素信息;
根据所述图形界面元素信息,确定所述至少一个图像控件。
3.根据权利要求2所述的方法,其特征在于,所述确定当前的图形界面对应的图形界面元素信息,包括:
调用系统底层代码信息,获取所述图形界面元素信息;或者,
调用系统辅助服务功能接口,获取所述图形界面元素信息。
4.根据权利要求2所述的方法,其特征在于,所述根据所述图形界面元素信息,确定所述至少一个图像控件,包括:
从所述图形界面元素信息中查询类属性后缀为预设类型的控件,组成候选控件集合;
对所述候选控件集合中的控件进行尺寸筛选,得到所述至少一个图像控件。
5.根据权利要求4所述的方法,其特征在于,所述预设类型包括下述至少之一:ImageView、FrameLayout、LinearLayout、RelativeLayout和View。
6.根据权利要求4所述的方法,其特征在于,所述对所述候选控件集合中的控件进行尺寸筛选,得到所述至少一个图像控件,包括:
在所述候选控件集合中,判断所述控件的长度和宽度是否满足预设尺寸条件,将长度和宽度满足所述预设尺寸条件的所述控件确定为所述图像控件。
7.根据权利要求1所述的方法,其特征在于,所述根据当前的图形界面,确定至少一个图像控件,包括:
对当前的图形界面进行截图,得到待识别图像;
对所述待识别图像进行控件检测,将检测得到的若干个控件组成候选控件集合;
对所述候选控件集合中的控件进行尺寸筛选,得到所述至少一个图像控件。
8.根据权利要求1至7任一项所述的方法,其特征在于,所述根据所述语音数据与所述至少一个图像控件对应的图像描述文本信息进行图像控件识别,在所述至少一个图像控件中确定目标图像控件,包括:
对所述语音数据进行文本转换,得到语音文本信息;
将所述语音文本信息与所述至少一个图像控件对应的图像描述文本信息进行语义匹配,确定所述至少一个图像控件对应的语义相似度值;
根据所述语义相似度值,确定所述目标图像控件。
9.根据权利要求8所述的方法,其特征在于,所述根据所述语义相似度值,确定所述目标图像控件,包括:
确定所述语义相似度值中的最大相似度值对应的图像控件为所述目标图像控件。
10.根据权利要求1所述的方法,其特征在于,在所述接收用户输入的语音数据之后,所述方法还包括:
对当前的图形界面进行截图,得到待识别图像;
对所述语音数据进行文本转换,得到语音文本信息;
根据所述语音文本信息对所述待识别图像进行目标检测,确定目标图像控件;
根据所述语音数据确定操作指令,向所述目标图像控件发送所述操作指令,以实现对所述目标图像控件的语音控制。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州逗酷软件科技有限公司,未经杭州逗酷软件科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111398660.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多工位副车架伺服压装装置
- 下一篇:一种任意方向文本行生成方法及系统