[发明专利]视觉单词和短语共驱动的词袋模型图片分类方法在审
| 申请号: | 202010478642.8 | 申请日: | 2020-05-29 |
| 公开(公告)号: | CN111652309A | 公开(公告)日: | 2020-09-11 |
| 发明(设计)人: | 刘秀萍;李蕊男 | 申请(专利权)人: | 刘秀萍 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/46 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 321200 浙江省*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 视觉 单词 短语 驱动 模型 图片 分类 方法 | ||
1.视觉单词和短语共驱动的词袋模型图片分类方法,其特征在于,把一张图片看成一个元素集合,元素集合内的元素是离散的视觉单词和短语组合,分别统计不同的视觉单词和短语在集合中出现的概率,得到对应的频次直方图向量,频次直方图向量就是图片在词袋模型角度的等价表示,最后把频次直方图向量引入分类器中进行训练分类;具体步骤为:
第一步,前景后景聚合的图片特征提取;前景后景聚合的图片特征提取表达方法以人类视觉注意机制为基础,将图片分为视觉明显区域和非明显性区域二部分,其中视觉明显区域为前景,非明显性区域为后景,前景包含图片中突出的表现内容,后景包含图片的环境因素;
第二步,视觉特征词袋聚合表达;通过聚类算法将多维空间向量进行聚合,每个聚合中心即一个独立的单词短语,合并后形成视觉特征词典供后续特征映射查找;
第三步,视觉单词短语生成映射;图片特征分派到视觉特征词典对应单词短语上,在向量空间中通过寻找与图片中特征向量距离最相近的视觉单词和短语,然后分派给对应单词,把每张图片表示成一个K维的单词短语向量,K为之前设定的聚类中心个数;
第四步,分类器训练分类;将得到的K维向量作为分类器的输入,对分类器进行训练分类,供图片分类。
2.根据权利要求1所述的视觉单词和短语共驱动的词袋模型图片分类方法,其特征在于,第一步,前景后景聚合的图片特征提取采用基于视觉注意机制的图片特征提取方法,视觉明显区域提取方法为:一是从图片的方向、颜色、亮度三个维度建立图片的9层高斯金字塔,二是在高斯金字塔的每层提取方向、颜色、亮度三个维度的特征,组合成特征金字塔,三是在多尺度空间下逐尺度做差,得到突出目标为中心的特征分布图,四是运用马尔科夫随机场构建二维图片的马尔科夫链,得到图片的最终视觉明显区域区分图。
3.根据权利要求1所述的视觉单词和短语共驱动的词袋模型图片分类方法,其特征在于,第二步,视觉特征词袋聚合表达将前景特征和后景特征聚合表述图片内容,将视觉特征词典分为以前景SIFT特征生成的前景特征词典和以后景密集SIFT特征生成的后景特征词典,最后将两种特征词典映射得到的直方图加权聚合进行图片分类判定;具体包括:密集SIFT表达子采样、前景特征词典生成、后景特征词典生成、聚合特征生成。
4.根据权利要求3所述的视觉单词和短语共驱动的词袋模型图片分类方法,其特征在于,密集SIFT表达子采取均匀采样方式,设置像素间隔大小控制采样密度,逐窗口对图片进行特征提取;
间隔提取出特征点后,所有特征点设定同一尺度C,将图片调整到水平0度,以特征点为圆心,以设定的尺度C作为半径画圆,将落在圆内的像素点均匀分为4╳4个不重叠子区域,在子区域内每隔45度划分角度坐标,然后统计每个子区域在每个方向上的角度直方图,生成的特征表达子是128维向量表示;
密集SIFT采取均匀提取特征点方式,采用多尺度提取恢复尺度不变性,大尺度表述图片的整体概貌,小尺度抓取图片的部分细节。
5.根据权利要求3所述的视觉单词和短语共驱动的词袋模型图片分类方法,其特征在于,前景特征词典生成的具体步骤如下:
步骤1,对图片中的前景区域提取SIFT特征,根据聚类方法得到前景对应的视觉特征词典,标记成Aq;
步骤2,对待分类的图片前景内容提取SIFT表达子,将所有生成的SIFT特征集合标记成Bq;
步骤3,把B中所有的特征点按硬性分派方法映射到A中离它距离最近的单词,映射全部完成后得到每张图片对应的视觉单词和短语集合;
步骤4,记录每张图片中所出现的视觉单词和短语个数,获得对应频次直方图,标记成Dq,不作归一化处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于刘秀萍,未经刘秀萍许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010478642.8/1.html,转载请声明来源钻瓜专利网。





