[发明专利]一种数据处理方法、装置、计算机设备及存储介质在审
申请号: | 202011261127.0 | 申请日: | 2020-11-12 |
公开(公告)号: | CN112231347A | 公开(公告)日: | 2021-01-15 |
发明(设计)人: | 杨洁;陈绍毅;廖梦;徐进;王志平 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/2457 | 分类号: | G06F16/2457;G06F16/735;G06N3/04;G06N20/20 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强;杜维 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 计算机 设备 存储 介质 | ||
1.一种数据处理方法,其特征在于,包括:
获取用于将搜索业务数据和待匹配业务数据进行匹配的多模态匹配模型;所述多模态匹配模型包括特征学习器以及预测生成器;所述待匹配业务数据中包括第一模态业务数据和第二模态业务数据;
通过所述特征学习器中的文本特征学习器,对所述搜索业务数据的第一特征提取向量和所述第一模态业务数据的第二特征提取向量进行第一学习处理,得到第一学习结果;所述第一学习结果中的学习向量是由文本全局信息向量和文本局部细粒度向量所得到的;所述文本全局信息向量是基于所述文本特征学习器的第一全局特征学习层中的第一多尺度卷积核所得到的;所述文本局部细粒度向量是基于所述文本特征学习器的第一局部特征学习层所得到的;
通过所述特征学习器中的多模态特征学习器,对所述第一特征提取向量和所述第二模态业务数据的第三特征提取向量进行第二学习处理,得到第二学习结果;所述第二学习结果中的学习向量是由多模态全局信息向量和多模态局部细粒度向量所得到的;所述多模态全局信息向量是基于所述多模态特征学习器的第二全局特征学习层中的第二多尺度卷积核所得到的;所述多模态局部细粒度向量是基于所述多模态特征学习器的第二局部特征学习层所得到的;
通过所述预测生成器将所述第一学习结果中的学习向量与所述第二学习结果中的学习向量进行拼接处理,得到向量拼接结果;所述向量拼接结果用于指示对所述搜索业务数据和所述待匹配业务数据之间的匹配度进行预测。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取用户终端发送的包括搜索业务数据的业务搜索请求;所述业务搜索请求为所述用户终端在应用客户端中响应针对搜索显示界面中的搜索控件的触发操作时所生成的;所述搜索业务数据是由所述用户终端从所述搜索显示界面的搜索区域中所获取到的;
基于所述业务搜索请求,从视频数据库中获取具有第一业务类型的业务数据,将具有所述第一业务类型的业务数据作为第一模态业务数据,以及从所述视频数据库中获取具有第二业务类型的业务数据,将具有所述第二业务类型的业务数据作为第二模态业务数据;所述第一业务类型不同于所述第二业务类型;
将所述第一模态业务数据和所述第二模态业务数据所共同映射的业务数据作为待匹配业务数据。
3.根据权利要求2所述的方法,其特征在于,若所述搜索业务数据的业务类型为所述第一业务类型,且所述第一业务类型属于文本类型,则所述第二业务类型包括以下至少一种业务类型:视频类型或者图片类型;所述多模态匹配模型包括特征提取器;所述特征提取器包括词向量提取网络和残差网络;
所述方法还包括:
将所述搜索业务数据和所述第一模态业务数据作为待编码文本数据;
通过所述词向量提取网络,从所述待编码文本数据中提取得到特征提取向量;所述特征提取向量包括从所述搜索业务数据中所提取到的第一特征提取向量,以及从所述第一模态业务数据中所提取到的第二特征提取向量;
对所述第二模态业务数据进行抽帧处理得到视频帧,将所述视频帧输入至所述残差网络中,由所述残差网络提取得到所述第二模态业务数据对应的第三特征提取向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011261127.0/1.html,转载请声明来源钻瓜专利网。