[发明专利]数据处理装置、数据处理方法以及记录介质有效
| 申请号: | 201810695673.1 | 申请日: | 2018-06-29 |
| 公开(公告)号: | CN110209665B | 公开(公告)日: | 2023-07-28 |
| 发明(设计)人: | 近藤真晖 | 申请(专利权)人: | 株式会社东芝;东芝数字解决方案株式会社 |
| 主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/583;G06F18/23213 |
| 代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 杨谦 |
| 地址: | 日本*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数据处理 装置 方法 以及 记录 介质 | ||
1.一种数据处理装置,具备:
子矢量群生成部,从由N个D维特征矢量构成的特征矢量集合生成M个子矢量群,上述M个子矢量群分别包括从上述N个D维特征矢量的每一个获得的N个维可变子矢量,上述N个维可变子矢量分别将从上述D维特征矢量提取的1以上的维的值作为元素,上述M个子矢量群中的至少一个子矢量群中的上述维可变子矢量的元素的数量与其他子矢量群中的上述维可变子矢量的元素的数量不同,其中,M<D;
码本生成部,按照上述M个子矢量群的每一个,对上述N个维可变子矢量进行聚类,生成将各簇的代表矢量与索引建立起对应的码本;以及
转换部,通过使用了上述码本的直积量化,将上述N个D维特征矢量分别转换为由M个索引的组合构成的压缩码,
上述子矢量群生成部以使上述M个子矢量群彼此之间上述维可变子矢量的分散的程度变近的方式,生成上述M个子矢量群。
2.如权利要求1所述的数据处理装置,其中,
上述码本生成部按照上述M个子矢量群的每一个,基于推断的子矢量群的最佳簇数对上述N个维可变子矢量进行聚类,生成上述M个子矢量群中的至少一个子矢量群所对应的簇数与其他子矢量群所对应的簇数不同的上述码本。
3.如权利要求1所述的数据处理装置,其中,
上述子矢量群生成部对于上述N个D维特征矢量的各维,求出最佳簇数C,将最佳簇数C相同的维进行分组,对于由GC表示的子矢量群的最佳簇数超过簇数上限值T的组,对组进行分割直至GC≤T或者G=1为止,由此从上述特征矢量集合生成上述M个子矢量群,其中,G是属于组的维的数量。
4.如权利要求3所述的数据处理装置,其中,
还具备参数调整部,该参数调整部探索性地决定上述簇数上限值T,使得在上述N个D维特征矢量被分别转换为上述压缩码的前后的检索精度的变动率或者上述N个D维特征矢量被分别转换为上述压缩码时的压缩率接近所设定的目标值。
5.如权利要求1至4中任一项所述的数据处理装置,其中,还具备:
差分查找表生成部,对于上述M个子矢量群的每一个,生成将表示每个上述簇的上述维可变子矢量的分散的范围的值与上述索引建立起对应的差分查找表;以及
码本更新部,在上述特征矢量集合中追加了新的特征矢量的情况下,求出从新的特征矢量生成的维可变子矢量各自的簇,参照上述差分查找表,判断从新的特征矢量生成的维可变子矢量是否全部落入对应的簇的分散的范围,在有未落入对应的簇的分散的范围的维可变子矢量时,对上述码本的该簇的代表矢量进行更新。
6.如权利要求5所述的数据处理装置,其中,
上述码本更新部将成为更新的对象的簇分割为多个簇,按照分割后的每个簇,将代表矢量与索引建立对应。
7.一种数据处理方法,其中,
从由N个D维特征矢量构成的特征矢量集合生成M个子矢量群,其中,M<D,
上述M个子矢量群分别包括从上述N个D维特征矢量的每一个获得的N个维可变子矢量,上述N个维可变子矢量分别将从上述D维特征矢量提取的1以上的维的值作为元素,上述M个子矢量群中的至少一个子矢量群中的上述维可变子矢量的元素的数量与其他子矢量群中的上述维可变子矢量的元素的数量不同,以使上述M个子矢量群彼此之间上述维可变子矢量的分散的程度变近的方式,生成上述M个子矢量群,
按照上述M个子矢量群的每一个,对上述N个维可变子矢量进行聚类,生成将各簇的代表矢量与索引建立起对应的码本,
通过使用了上述码本的直积量化,将上述N个D维特征矢量的每一个转换为由M个索引的组合构成的压缩码。
8.一种记录介质,记录有用于使计算机执行以下步骤的程序:
从由N个D维特征矢量构成的特征矢量集合生成M个子矢量群,其中,M<D,
上述M个子矢量群分别包括从上述N个D维特征矢量的每一个获得的N个维可变子矢量,上述N个维可变子矢量分别将从上述D维特征矢量提取的1以上的维的值作为元素,上述M个子矢量群中的至少一个子矢量群中的上述维可变子矢量的元素的数量与其他子矢量群中的上述维可变子矢量的元素的数量不同,以使上述M个子矢量群彼此之间上述维可变子矢量的分散的程度变近的方式,生成上述M个子矢量群,
按照上述M个子矢量群的每一个,对上述N个维可变子矢量进行聚类,生成将各簇的代表矢量与索引建立起对应的码本,
通过使用了上述码本的直积量化,将上述N个D维特征矢量的每一个转换为由M个索引的组合构成的压缩码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社东芝;东芝数字解决方案株式会社,未经株式会社东芝;东芝数字解决方案株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810695673.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种百家姓双亲族谱修撰系统及其实现方法
- 下一篇:一种数据存储方法及终端设备





