[发明专利]数据处理装置、数据处理方法以及记录介质有效
| 申请号: | 201810695673.1 | 申请日: | 2018-06-29 |
| 公开(公告)号: | CN110209665B | 公开(公告)日: | 2023-07-28 |
| 发明(设计)人: | 近藤真晖 | 申请(专利权)人: | 株式会社东芝;东芝数字解决方案株式会社 |
| 主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/583;G06F18/23213 |
| 代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 杨谦 |
| 地址: | 日本*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数据处理 装置 方法 以及 记录 介质 | ||
本发明涉及数据处理装置、数据处理方法以及记录介质。能够高效地对特征矢量进行量化。数据处理装置具备子矢量群生成部、码本生成部以及转换部。子矢量群生成部从由N个D维特征矢量构成的特征矢量集合生成M个(M<D)的子矢量群。M个子矢量群分别包括从N个D维特征矢量的每一个中获得的N个维可变子矢量。N个维可变子矢量分别将从D维特征矢量提取的1以上的维的值作为元素。至少一个子矢量群中的维可变子矢量的元素的数量与其他子矢量群中的维可变子矢量的元素的数量不同。码本生成部对N个维可变子矢量进行聚类,生成将各簇的代表矢量与索引建立起对应的码本。转换部通过直积量化,将D维特征矢量转换为由M个索引的组合构成的压缩码。
本申请享受2018年2月15日在先提出的日本专利申请号2018-024700的优先权的利益,并且引入其全部内容。
技术领域
本发明的实施方式涉及数据处理装置、数据处理方法以及记录介质。
背景技术
伴随着大数据时代的到来,大量保留例如在图案识别等中被用作示例的特征矢量的必要性增加。伴随于此,用于保留特征矢量的存储器、硬盘驱动器等硬件成本增大。作为该问题的解决对策之一,已知有通过直积量化来减少特征矢量的存储大小(memory size)的方法。直积量化是如下技术:将特征矢量分割成多个子矢量,参照码本,将各子矢量置换为簇的代表矢量的索引,从而将特征矢量转换为压缩码。码本是通过将应保留的特征矢量集合按照每个子矢量进行聚类并将各簇的代表矢量与索引建立对应而生成的查找表。
在将特征矢量分割为多个子矢量时,以往,一般是以使各个子矢量的维数相同的方式均等地分割特征矢量。但是,在该方法中,在不同的子矢量间,分散的程度产生较大的不均,有时在生成码本时由于子矢量而导致簇数过剩或过小。而且,若使用这样生成的码本进行特征矢量的直积量化,则担心量化效率降低。
发明内容
本发明要解决的课题是要提供一种能够高效地对特征矢量进行量化的数据处理装置、数据处理方法以及记录介质。
实施方式的数据处理装置具备子矢量群生成部、码本生成部以及转换部。子矢量群生成部从由N个D维特征矢量构成的特征矢量集合生成M个(其中,M<D)子矢量群。上述M个子矢量群分别包括从上述N个D维特征矢量的每一个获得的N个维可变子矢量。上述N个维可变子矢量分别将从上述D维特征矢量提取的1以上的维的值作为元素。上述M个子矢量群中的至少一个子矢量群中的上述维可变子矢量的元素的数量与其他子矢量群中的上述维可变子矢量的元素的数量不同。码本生成部按照上述M个子矢量群的每一个,对上述N个维可变子矢量进行聚类,生成将各簇的代表矢量与索引建立起对应的码本。转换部通过使用了上述码本的直积量化,将上述N个D维特征矢量分别转换为由M个索引的组合构成的压缩码。
通过上述构成的数据处理装置,能够高效地对特征矢量进行量化。
附图说明
图1是表示特征矢量集合的一例的图。
图2是说明从特征矢量集合生成子矢量群的现有方法的图。
图3是说明生成码本的现有方法的图。
图4是说明参照码本将特征矢量转换为压缩码的方法的图。
图5是说明参照码本将特征矢量转换为压缩码的方法的图。
图6是表示第一实施例的数据处理装置的功能的构成例的框图。
图7是表示从特征矢量集合生成子矢量群的情形的图。
图8是表示子矢量群生成部进行的处理的具体例的流程图。
图9是表示生成码本的情形的图。
图10是表示第二实施例的数据处理装置的功能的构成例的框图。
图11是说明簇数上限值的探索方法的图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社东芝;东芝数字解决方案株式会社,未经株式会社东芝;东芝数字解决方案株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810695673.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种百家姓双亲族谱修撰系统及其实现方法
- 下一篇:一种数据存储方法及终端设备





