[发明专利]基于视觉特征和语义特征的跨媒体检索方法有效
申请号: | 201610235578.4 | 申请日: | 2016-04-15 |
公开(公告)号: | CN105912684B | 公开(公告)日: | 2019-07-26 |
发明(设计)人: | 唐欢容;欧阳建权;徐竟达;汤陈蕾;王中涛 | 申请(专利权)人: | 湘潭大学 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/583 |
代理公司: | 北京卓恒知识产权代理事务所(特殊普通合伙) 11394 | 代理人: | 徐楼 |
地址: | 411105*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明针对互联网海量异构数据之间错综复杂的关系的公开了一种基于视觉特征和语义特征的跨媒体检索方法,主要包括以下几个步骤:第一步,使用二次开发的分布式网络爬虫对目标数据源的数据进行抓取;第二步,针对不同数据源,分别编写不同的模板,对网页进行基于模板的信息提取,对数据进行解析去噪,并存入数据库中;第三步,对图片提取特征值并建立索引,建立语义关联图;第四步,使用SVM支持向量机和已经训练过的模型,对内容进行分类;第五步,根据提取出的视觉特征和语义特征,计算不同类型数据之间的相似距离,分析不同类型数据之间的关联性。采用本方法,可以较有效地挖掘出不同类型数据之间的关联性。 | ||
搜索关键词: | 基于 视觉 特征 语义 媒体 检索 方法 | ||
【主权项】:
1.基于视觉特征和语义特征的跨媒体检索方法,该方法包括以下步骤:A)数据抓取:使用二次开发的分布式网络爬虫对目标数据源的数据进行抓取;B)数据或信息的初步处理:针对不同数据源,分别编写不同的模板,并且对网页进行基于模板的信息提取,对提取的数据或信息进行解析去噪,并存入数据库中;其中:所述的分别编写不同的模板、对网页进行基于模板的信息提取的过程包括以下步骤:基于网页Html结构的特征来自动生成不同的模板,针对相似网页进行信息提取;C)从存储的数据或信息分别提取视觉特征和提取语义特征,该步骤C)包括以下子步骤:C1)提取视觉特征:提取图片特征,生成一个表示图片特征的144维直方图;和C2)提取语义特征:首先,C21)基于同时出现在一个网页中的图片存在一定的语义相关性的假设,以网页为共现窗口,设计共生算法得到第一阶段的语义关系图,即,将网页作为结点,最终不同的网页之间生成彼此不连通的图;其次,C22)对各个网页的所有图像根据CEDD、FITC图像特征应用Affinity Propagation算法进行聚类,同一类的图像视为类似图像,同一类的图像合并为一个点,该点保持与其他点关联,因此将彼此不连通的图连通并形成语义信息丰富的语义关系图,即,生成语义关联图;其中:子步骤C21)生成彼此不连通的图的过程包括:依据假设出现在同一网页中的图片彼此相关,将一张图片看作一个点,图片和图片之间的关系看作点与点之间的边,同一个网页中的图片及其关系按上述子步骤C21)生成彼此不连通的图的过程即形成每对顶点之间恰好连有一条边的图,各个网页形成彼此不连通的图;D)内容分类:使用SVM支持向量机和已经训练过的模型,对通过爬虫抓取到的数据或信息的内容进行分类;E)跨媒体检索:根据上述子步骤C1)所提取出的视觉特征和上述子步骤C2)所提取出的语义特征,计算不同类型数据之间的相似距离,从而分析不同类型数据之间的关联性,进行检索。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湘潭大学,未经湘潭大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610235578.4/,转载请声明来源钻瓜专利网。