[发明专利]基于多级图文语义对齐模型的新闻事件搜索方法及系统在审
| 申请号: | 202111413975.3 | 申请日: | 2021-11-25 |
| 公开(公告)号: | CN114297473A | 公开(公告)日: | 2022-04-08 |
| 发明(设计)人: | 范春晓;吴岳辛;孙娟娟;汤艺;郭皓洁 | 申请(专利权)人: | 北京邮电大学 |
| 主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/907;G06F16/906;G06N3/04;G06N3/08 |
| 代理公司: | 北京市商泰律师事务所 11255 | 代理人: | 黄晓军 |
| 地址: | 100876 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 多级 图文 语义 对齐 模型 新闻 事件 搜索 方法 系统 | ||
1.一种基于多级图文语义对齐模型的新闻事件搜索方法,其特征在于,包括以下步骤:
步骤1),构建多模态新闻图文数据集;
步骤1.1)新闻事件选取;
在对新闻事件进行整理和归纳之后,得到事件名称;
步骤1.2)新闻数据获取
使用步骤1.1)中得到的事件名称为检索词,搜索得到的与之匹配的新闻报道数据,提取每一则新闻报道的配图和标题文本对作为该新闻事件的一条样例数据;
步骤1.3)数据标注;
通过算法对所得数据进行预处理,完成数据集的算法初筛工作;
步骤2),建立用于图文匹配的多级视觉-文本语义对齐模型MSAVT;
步骤2.1)利用深度神经网络模型提取图像特征与文本特征;
步骤2.2)将提取的文本特征和图像特征映射到图像语义和文本语义的联合嵌入空间;
步骤2.3)针对提出同时建立模态内约束和模态间约束的聚类损失;
步骤2.4)针对图像特征,加入单词检测损失以关注单词层面的对齐;
步骤2.5)聚类损失和单词检测损失作为排序损失的补充,得到最终的整体损失函数;
步骤3),实现新闻事件跨模态图文搜索;
采用以图搜文或以文搜图的方式,实现新闻事件跨模态图文搜索。
2.根据权利要求1所述的基于多级图文语义对齐模型的新闻事件搜索方法,其特征在于,
所述的步骤1.3)数据标注中,所述的算法初筛具体步骤包括:
步骤1.3.1)使用预训练的RoBERTa模型提取文本特征和预训练的ResNet50模型提取图片特征;
步骤1.3.2)每个事件视作一个类,通过文本和图片特征取平均值的方式计算出该类的文本中心和图片中心;
步骤1.3.3)认定图像特征或文本特征距离其中心最近的20%的数据是高置信度的可靠数据,取它们的并集予以保留;
步骤1.3.4)其余数据通过人工补标注的形式进行判定。
3.根据权利要求1所述的基于多级图文语义对齐模型的新闻事件搜索方法,其特征在于,
所述的步骤2.3)中的聚类损失为:
假设数据集有K个集群且每个集群内包含N个样本对,给定集群k中的对象i,计算集群内距离为公式(2-2),
其中,rik为集群k中的对象i的向量表示,μk为第k个集群的中心,其定义为公示2-3所示:
方差σ的定义为公式2-4所示:
集群之间的距离可通过公式2-5计算得到:
通过最小化集群内距离和最大化集群间距离,我们得到聚类损失定义为公式2-6:
4.根据权利要求1所述的基于多级图文语义对齐模型的新闻事件搜索方法,其特征在于,
所述的步骤2.4)中,单词检测损失用于评估一个新闻图文对中,图像是否包含其标题文本中含有的高频词。根据所使用的数据集设置属性字典,属性字典由多模态数据集中文本数据的1000个高频词组成,单词检测损失的的具体计算步骤为:
步骤2.4.I)使用权重矩阵W乘上图像描述符υ获得top1k单词集中每个单词出现的概率分数s,其定义如公式2-7所示:
s=Wυ#(2-7)
步骤2.4.II)提前计算每个新闻图文对中标题文本中含有高频词作为分类问题的标签,利用1000个二进制分类器计算单词检测损失Lword,如公式2-8所示:
其中,si表示第i个单词的概率分数,ti∈{0,1}代表第i个单词是否出现在标题文本中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111413975.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种囊内液体多方位抽取装置
- 下一篇:一种可调行程自动换向气缸





