[发明专利]使用神经网络的眼睛注视跟踪有效

申请号：	201780033419.9	申请日：	2017-06-28
公开（公告）号：	CN109313490B	公开（公告）日：	2020-10-02
发明（设计）人：	德米特里·拉贡;维德亚·纳瓦尔帕坎	申请（专利权）人：	谷歌有限责任公司
主分类号：	G06F3/01	分类号：	G06F3/01
代理公司：	中原信达知识产权代理有限责任公司 11219	代理人：	周亚荣;安翔
地址：	美国加利***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	使用神经网络眼睛注视跟踪
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

用于注视位置预测的方法、系统和装置，包括在计算机存储介质上编码的计算机程序。系统之一包括神经网络，其被配置成获得用户的输入面部图像的集合，其中，用户的输入面部图像的集合包括(i)用户的查询图像、(ii)用户的一个或多个校准图像以及(iii)针对用户的一个或多个校准图像中的每一个校准图像标记用户的已知注视位置的相应的校准标签；和子系统，其被配置成使用神经网络处理接收到的用户的输入面部图像的集合以生成表征用户的注视位置的输出。说明书描述注视预测系统的示例，其与已知的注视预测系统相比，需要更少的计算资源，同时实现相同或更高的精度水平。

技术领域

本说明书涉及计算机实现的注视预测。

背景技术

注视预测系统可以在各种设置中使用和应用，包括例如智能手机或平板电脑的计算设备的免提操作，或基于注视的游戏，或者协助在诸如人机交互的领域进行眼睛跟踪研究。

发明内容

如下面更详细讨论的，与已知的注视预测系统相比，本说明书中描述的注视预测系统可能需要更少的计算资源，同时实现改进的可伸缩性和相同或更高的精度水平。

通常，本说明书中描述的主题的一个创新方面能够被体现在注视预测系统中，用于处理用户的输入面部图像的集合以生成预测用户的注视位置的系统输出，该注视预测系统包括：神经网络，该神经网络包括一个或多个神经网络层，其中，该神经网络被配置成：获得用户的输入面部图像的集合，其中用户的输入面部图像的集合包括(i)用户的查询图像，(ii)用户的一个或多个校准图像，以及(iii)针对用户的一个或多个校准图像中的每一个校准图像标记用户的已知注视位置的相应的校准标签；并且使用一个或多个神经网络层处理接收到的用户的输入面部图像的集合以生成表征查询图像中的用户的注视位置的神经网络输出。

此方面的其他实施例包括对应的计算机系统、装置和记录在一个或多个计算机存储设备上的计算机程序，每个被配置成执行方法的动作。一个或多个计算机的系统能够被配置成，借助于安装在系统上的软件、固件、硬件或其任何组合来执行特定操作或动作，其在操作中可以使系统执行动作。一个或多个计算机程序能够被配置成借助于包括当由数据处理装置执行时使装置执行动作的指令来执行特定操作或动作。

前述和其他实施例无论单独还是组合均能够可选地包括一个或多个下述特征。在一些实施方式中，注视预测系统还包括图像采集系统，其被配置成获得用户的输入面部图像的集合。

在一些实施方式中，注视预测系统在用户设备上实现，其中用户设备包括(i)显示屏幕，和(ii)前置相机。

在一些实施方式中，图像采集系统使用前置相机获得用户的查询图像。

在一些实施方式中，获得用户的一个或多个校准图像包括：确定显示屏幕的大小；将显示屏幕划分为多个区域；并且对于每个区域：在显示屏幕的区域内的位置显示可视标志；使用前置相机获得图像同时可视标志显示在显示屏幕区域内的位置。

在一些实施方式中，在显示屏幕区域内的位置显示可视标志包括根据预定的概率分布来指派区域内的位置。

在一些实施方式中，系统还提取获得的图像的面部区域以获得校准图像。

在一些实施方式中，提取获得的图像的面部区域包括选择获得的图像的眼睛区域。

在一些实施方式中，图像采集系统被配置成：确定获得的图像是否有噪声；并且响应于确定获得的图像有噪声，拒绝获得的图像。

在一些实施方式中，表征注视位置的生成的神经网络输出将查询图像中的用户的用户的注视位置表征为用户设备的显示屏幕上的位置。

在一些实施方式中，用户的一个或多个校准图像包括用户的九个校准图像。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载