[发明专利]网络文本与图像中关联语义基元的弱监督学习方法有效
申请号: | 201711248543.5 | 申请日: | 2017-12-01 |
公开(公告)号: | CN108132968B | 公开(公告)日: | 2020-08-04 |
发明(设计)人: | 杜友田;黄鑫;崔云博;王航 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F16/583 | 分类号: | G06F16/583;G06F16/33;G06F16/901;G06F40/30 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 段俊涛 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络 文本 图像 关联 语义 监督 学习方法 | ||
一种网络文本与图像中关联语义基元的弱监督学习方法,首先,针对异构模态数据内容进行特征提取与表达,从而分别获得文本、图像两者单独模态下语义基元的特征向量空间;其次,以图像中的每个区域作为结点,以结点之间的多种关系作为边,构建图像‑文本语义信息传播模型;再次,构建图上的学习算法,将图像级别对应的文本语义信息有效地传播到这些图像区域上去,形成大量表征客观世界的语义基本单元集合;本发明针对目前网络中数量居多的文本、图像两种模态的数据进行相关性建模和学习,通过基于图的文本图像关联语义基元学习算法,获得大量在高层语义相匹配的文本‑图像语义基元对,从高层语义上将二者实现关联,在跨媒体检索等领域价值巨大。
技术领域
本发明属于跨媒体检索技术领域,特别涉及一种网络文本与图像中关联语义基元的弱监督学习方法。
背景技术
随着互联网技术的高速发展和多媒体设备的日益普及与应用,网络上的文本、图像、音频、视频等多媒体数据的规模越来越庞大,尤其是近年来,社交网站的快速繁荣发展使得广大互联网用户能够随时随地上传、分享各类数据,这进一步加剧了多媒体数据的爆炸式增长趋势。例如,Flicker图片社交网站2015年用户上传图片达7.28亿张,平均每天约200万张的上传量。同时,异构模态的数据经常混合并存于同一文档中,从不同的角度来描述同一主题内容。例如新浪微博,用户上传的照片与其给出的文本配字很有可能表达了同一语义。
这些趋势给网络信息检索技术带来了许多问题和挑战。一方面,网络异构数据具有“高层语义相关,底层特征异构”的特点,因此,对异构媒体数据的底层特征直接进行相似性度量非常困难;另一方面,用户如今不仅对检索速度和匹配度提出要求,更希望能够通过一次简单的输入操作获取到包含文本、图像、音频、视频等多种媒体在内的返回结果,以便对某一事物形成更加完整的认知。这些问题的不断产生和解决推动了信息检索技术的不断发展。
姚涛等人提出了一种基于映射字典学习的跨模态哈希检索方法(CN107256271A),该方法的核心是利用映射字典学习分别为图像和文本模态学习一个共享子空间。裴廷睿等人提出一种基于局部敏感哈希算法和神经网络的跨媒体检索方法(CN107103076A),该方法通过局部敏感哈希算法处理图像数据,利用哈希函数学习处理文本数据,然后对处理后的图像和文档进行编码建立索引,从而实现更加精确的检索。白亮等人提出一种基于类马氏相关性度量的跨媒体检索方法(CN106649715A),该方法的核心是通过W-CCA算法找到文本和图像的特征数据集的公共最大特征子空间,然后将文本和图像的特征集的数据统一到同一子空间。王文敏等人则提出了两种不同的跨媒体检索方法(CN106202413A、CN106095893A),这两种方法分别是通过基于逻辑回归的语义匹配方法找到图像、文本这两种异构特征之间的关联以及基于耦合的特征映射、同种媒体内和不同媒体间的关联挖掘来进行跨媒体检索的。
由此可见,检索技术正在逐渐从单一模态的方向朝着跨模态检索的方向发展,从基于文本标注的检索方向朝着基于高层语义的检索方向发展,而实现这一发展目标的基础和关键问题就是要研究解决如何建立异构数据之间的相关关系。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种网络文本与图像中关联语义基元的弱监督学习方法,针对目前网络中数量居多的文本、图像两种模态的数据进行相关性建模和学习,通过基于图的文本图像关联语义基元学习算法,获得大量在高层语义相匹配的文本-图像语义基元对,从高层语义上将二者实现关联,从而在跨媒体检索等领域发挥一定价值。
为了实现上述目的,本发明采用的技术方案是:
一种网络文本与图像中关联语义基元的弱监督学习方法,首先,针对异构模态数据内容进行特征提取与表达,从而分别获得文本、图像两者单独模态下语义基元的特征向量空间;其次,以图像中的每个区域作为节点,以节点之间的多种关系作为边,构建图像-文本语义信息传播模型;再次,构建图上的学习算法,将图像级别对应的文本语义信息有效地传播到这些图像区域上去,形成大量表征客观世界的语义基本单元集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711248543.5/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序