[发明专利]基于多级图文语义对齐模型的新闻事件搜索方法及系统在审
| 申请号: | 202111413975.3 | 申请日: | 2021-11-25 |
| 公开(公告)号: | CN114297473A | 公开(公告)日: | 2022-04-08 |
| 发明(设计)人: | 范春晓;吴岳辛;孙娟娟;汤艺;郭皓洁 | 申请(专利权)人: | 北京邮电大学 |
| 主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/907;G06F16/906;G06N3/04;G06N3/08 |
| 代理公司: | 北京市商泰律师事务所 11255 | 代理人: | 黄晓军 |
| 地址: | 100876 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 多级 图文 语义 对齐 模型 新闻 事件 搜索 方法 系统 | ||
本发明提出用于图文匹配的多级视觉‑文本语义对齐模型MSAVT,并提供了基于图文匹配的多级视觉‑文本语义对齐模型MSAVT的新闻事件检索方法,实现了新闻事件跨模态图文搜索,以满足当下新闻检索需求。本发明提供的跨模态检索模型的图文对齐精度更高,应用于新闻事件跨模态图文检索时在多个水平的召回率和平均准确精度等指标上有显著的提升。同时,引入预训练的BERT模型提取文本特征,提高了算法的泛化性能。模型采用公共空间特征学习方法,可以独立的获取图像和文本的向量表征,即可以预先存储检索结果的向量表示,检索耗时较短,可以应用于实际场景中。
技术领域
本申请涉及计算机技术领域,尤其涉及一种基于多级图文语义对齐模型的新闻事件搜索方法。
背景技术
跨模态检索
模态指数据的存在形式,如文本、图片、视频等。跨模态检索(cross-modalretrieval)旨在用一种模态的数据作为查询来检索另一种模态的数据。最常见的是图像文本检索(image-text retrieval),给定一段文本,检索相关的图像,或者反过来给定一张图像,检索相关的文本。跨模态检索的主要难点在于“异构鸿沟”。异构鸿沟是指由于查询输入与检索结果的表示形式不一致,两者数据处于不同的分布空间,尽管高层语义相关,却无法直接度量相似性。因此研究的重点是如何表示底层特征、如何对高层语义建模以及如何找到合适的度量方法计算模态间的关联。目前主要有以下四类研究方法。
1)子空间的方法
利用不同模态样本对的成对共生信息学习投影矩阵,通过将不同模态的特征投影到公共潜在子空间并在其中度量不同模态的相似性来实现跨模态检索。
2)主题模型的方法
通过生成式模型挖掘跨模态数据中隐含的主题空间,从而将跨模态数据的底层特征映射到隐形语义空间。
3)哈希变换的方法
利用不同模态的样本对信息,学习不同模态的哈希变换,将不同模态特征映射到一个汉明二值空间,然后在汉明空间实现快速的跨模态检索。
4)深度学习的方法
利用深度神经网络的特征抽取能力,在底层提取不同模态的单独有效表示,然后在高层建立不同模态的语义关联,利用高层网络最大化不同模态表示的相关性。与传统跨模态检索方法相比,基于深度学习的方法在图片、文本等不同模态信息特征的提取、学习和表示方面表现出极大优越性,是近年来跨模态检索的研究热点。
跨模态检索的主要评价指标是recall@K,以正确答案是否出现在前K个返回结果为标准计算召回率。
表征学习
机器学习方法的性能很大程度上取决于数据表达(或者特征)的选择。在机器学习中,表征学习(Representation Learning)是学习一个特征的技术的集合,是用来提升原始数据表达的一种方向。表征学习的主要任务是让计算机学习如何自动提取适合、有用的数据特征并利用学习到的特征来完成目标任务。表征学习可以被分为两类:监督的和无监督的,前者使用标记过的数据作为特征,而后者将未被标记过的数据被当作特征用来学习。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111413975.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种囊内液体多方位抽取装置
- 下一篇:一种可调行程自动换向气缸





