[发明专利]空-时特征表示的提取有效

申请号：	201710841936.0	申请日：	2017-09-18
公开（公告）号：	CN109522902B	公开（公告）日：	2023-07-07
发明（设计）人：	姚霆;梅涛	申请（专利权）人：	微软技术许可有限责任公司
主分类号：	G06V10/62	分类号：	G06V10/62;G06V10/82;G06N3/0464;G06N3/08
代理公司：	北京世辉律师事务所 16093	代理人：	王俊
地址：	美国华***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	特征表示提取
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

根据本公开的实现，提出了一种提取空‑时特征表示的方案。在该方案中，在学习网络的第一层处接收输入，该输入包括多个图像。利用第一层的第一单元在空间维度中从输入提取多个图像的第一特征，第一特征表征多个图像的空间呈现。基于第一单元与第一层中的第二单元之间的连接的类型，利用第二单元在时间维度中从第一特征和输入中的至少一个提取多个图像的第二特征，第二特征至少表征跨多个图像的时间变化。至少部分地基于第二特征来生成多个图像的空‑时特征表示。通过该方案，降低了学习网络的尺寸，提高了学习网络的训练和使用效率，同时还获得较准确的空‑时特征表示。

背景技术

多媒体内容、特别是图像和视频被频繁应用，例如在电子设备之间被处理、传输和存储等等。这激励了在多媒体处理任务中对更高级处理技术的开发和使用。基于图像或视频的多媒体处理任务包括对象识别、动作识别、内容分类、深度估计等等。这些任务的基础通常是对图像或视频帧的特征表示的学习。特征表示指的是从图像或视频的帧中提取的、用于表征该视频的特征信息。基于所学习的特征表示，可以完成对图像或视频所期望的处理目标。

目前，已经发现神经网络(也被称为学习网络)在学习图像领域中的视觉特征表示时具有非常好的效果。有时还期望提取视频或者一组连续拍摄的图像的特征表示。在一些常规方案中，用于图像的神经网络设计可以被直接用于提取每个图像或视频的每个帧的特征表示。然而，不同于静态图像，一组连续图像或者视频的多个帧在时间上的动态变化也应被考虑在特征表示中。因此，在另外一些方案中，为了提取视频或一组图像在空间维度和时间维度中的特征信息，神经网络可以被设计得更复杂。这就要求更多的处理资源、存储资源用于神经网络的训练、存储和使用。

发明内容

根据本公开的实现，提出了一种提取空-时特征表示的方案。在该方案中，在学习网络的第一层处接收输入，该输入包括多个图像。利用第一层的第一单元在空间维度中从输入提取多个图像的第一特征，第一特征表征多个图像的空间呈现。基于第一单元与第一层中的第二单元之间的连接的类型，利用第二单元在时间维度中从第一特征和输入中的至少一个提取多个图像的第二特征，第二特征至少表征跨多个图像的时间变化。至少部分地基于第二特征来生成多个图像的空-时特征表示。通过该方案，降低了学习网络的尺寸，提高了学习网络的训练和使用效率，同时还获得较准确的空-时特征表示。

提供发明内容部分是为了简化的形式来介绍对概念的选择，其在下文的具体实施方式中将被进一步描述。发明内容部分无意标识要求保护的主题的关键特征或主要特征，也无意限制要求保护的主题的范围。

附图说明

图1示出了能够实施本公开的多个实现的计算设备的框图；

图2示出了根据本公开的一些实现的用于特征提取的系统的框图；

图3A至图3C示出了根据本公开的一些实现的图2中的系统的处理核的示例结构的框图；

图4示出了根据本公开的另一些实现的用于特征提取的系统的框图；

图5A至图5C示出了根据本公开的另一些实现的图2中的系统的处理核的示例结构的框图；

图6A至图6C示出了根据本公开的又一些实现的图2中的系统的处理核的示例结构的框图；以及

图7示出了根据本公开一些实现的用于特征提取的过程的流程图。

这些附图中，相同或相似参考符号用于表示相同或相似元素。

具体实施方式

现在将参照若干示例实现来论述本公开。应当理解，论述了这些实现仅是为了使得本领域普通技术人员能够更好地理解且因此实现本公开，而不是暗示对本主题的范围的任何限制。