[发明专利]基于语义相似度匹配的多模态融合表征方法及系统有效

专利信息
申请号: 202310434950.4 申请日: 2023-04-21
公开(公告)号: CN116150704B 公开(公告)日: 2023-07-14
发明(设计)人: 赖培源;戴青云;刘庆 申请(专利权)人: 广东工业大学
主分类号: G06F18/25 分类号: G06F18/25;G06F18/23;G06F18/2411;G06F40/30
代理公司: 佛山粤进知识产权代理事务所(普通合伙) 44463 代理人: 耿鹏
地址: 510050 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 语义 相似 匹配 多模态 融合 表征 方法 系统
【权利要求书】:

1.一种基于语义相似度匹配的多模态融合表征方法,其特征在于,包括以下步骤:

获取目标文本,将所述目标文本进行预处理,提取目标文本中的特征词;

将所述特征词分别基于词典、图片及文本进行扩展,获取拓展词典向量、拓展图片向量及拓展文本向量,生成对应特征向量;

根据当前检索场景获取基准词,将所述基准词与特征向量进行遍历比较,根据相似度计算获取匹配程度,过滤得到匹配程度最高的特征向量;

将词典特征向量、图片特征向量及文本特征向量进行多模态加权融合,形成当前检索场景下的特征词多模态特征向量;

将特征词基于词典进行扩展,获取若干拓展词典向量,生成对应特征向量,具体为:

获取目标文本的特征词的词向量,通过所述特征词的词向量分析语义信息,基于预设词典进行语义拓展;

根据预设词典生成拓展词数据集合,通过聚类方法对所述拓展词数据集合进行分析,利用特征词的词向量作为初始聚类中心;

获取拓展词数据集合中各拓展词向量到初始聚类中心的欧式距离,将各拓展词向量归于最近的初始聚类中心构成聚类结果;

当拓展词数据集合中所有拓展词向量聚类结束后,在特征词的词向量对应的各个聚类结果中进行距离均值计算,获取新的聚类中心,当迭代次数达到预设标准后,结束聚类操作;

根据最后一次迭代运算获取各个特征词的词向量对应的聚类结果,在各个聚类结果中,获取对应的拓展词典语义,生成语义的词向量;

根据当前检索场景获取基准词,根据基准词与语义词向量的相似度计算语义的词向量的匹配程度,筛选符合标准的拓展词典向量,并生成词典特征向量。

2.根据权利要求1所述的一种基于语义相似度匹配的多模态融合表征方法,其特征在于,获取目标文本,将所述目标文本进行预处理,提取目标文本中的特征词,具体为:

获取科技成果的描述文本作为目标文本,将所述目标文本进行分词,获取对应分词结果,在所述分词结果中去停用词后对文本进行表示,利用词嵌入模型生成对应的词向量;

将原始特征空间中的词向量进行空间映射,转换到低维特征空间,判断不同词向量在目标文本中的出现频率,根据预设频率阈值进行词向量的筛选;

若词向量的出现频率大于等于预设频率阈值,则将对应词向量作为关键词,若词向量的出现频率小于预设频率阈值,则视为低频词进行滤除;

获取各关键词的位置信息,对标题位置及非标题位置设置不同的权重值,根据所述各关键词的位置信息获取关键词的位置权重;

确定科技成果对应目标文本的类别信息,根据所述类别信息利用大数据手段检索类别语料,获取某一关键词在对应类别语料的出现频率,获取关键词的类别权重;

基于关键词的位置权重及类别权重进行特征词筛选,将符合预设标准的关键词作为目标文本中的特征词。

3.根据权利要求1所述的一种基于语义相似度匹配的多模态融合表征方法,其特征在于,将特征词基于图片进行扩展,获取拓展图片向量,生成对应特征向量,具体为:

根据特征词构建检索任务获取拓展图片集合,将拓展图片集合中的拓展图片数据进行预处理;

基于注意力机制优化的ResNet50网络构建图片特征提取模型,将预处理后的拓展图片数据导入图片特征提取模型;

通过卷积获取拓展图片数据的特征,对特征进行平均池化实现特征的压缩,对压缩后的特征进行激励,预测各通道的重要性,并利用注意力机制获取各通道的权重;

对特征通道进行加权,对拓展图片数据的特征进行重新标定,输出拓展图片数据的特征,根据拓展图片数据的特征获取拓展图片向量,与基准词进行相似度计算获取拓展图片的匹配程度;

筛选符合标准的拓展图片向量,生成图片特征向量。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310434950.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top