[发明专利]地理与视觉跨模态预训练模型的训练方法、位置确定方法有效
申请号: | 202210638232.4 | 申请日: | 2022-06-07 |
公开(公告)号: | CN114926655B | 公开(公告)日: | 2023-09-26 |
发明(设计)人: | 黄际洲;刘希岩;夏德国;王海峰 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06V10/44 | 分类号: | G06V10/44;G06V10/764;G06V10/82;G06N3/08;G06N3/04 |
代理公司: | 北京易光知识产权代理有限公司 11596 | 代理人: | 王姗姗;武晨燕 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 地理 视觉 跨模态预 训练 模型 方法 位置 确定 | ||
本公开提供了一种地理与视觉跨模态预训练模型的训练方法、位置确定方法,涉及人工智能技术领域,尤其涉及自然语言处理、计算机视觉等领域,具体实现方案为:基于地图数据构建预训练数据集,根据预训练数据集和预训练目标,对待训练模型进行模型训练,得到多视觉任务约束的第一预训练模型。采用本公开,可以提高模型的精度。
本公开主张2022年5月20日提交的中国专利申请号为202210557379.0的优先权,其全部内容通过引用包含于此。
技术领域
本公开涉及人工智能技术领域,尤其涉及自然语言处理、计算机视觉等领域。
背景技术
随着技术的发展,可以通过人工智能改善硬件性能,所适用的应用场景多种多样,比如涉及图像处理、视频处理、人脸识别、目标定位等与计算机视觉相关的应用场景的硬件设计中,都可以采用人工智能技术,即:将训练好的模型部署于硬件中,以提高硬件的处理速度及处理准确率。图像处理的精度为影响计算机视觉效果的关键一环,如何提高图像处理精度是要解决的问题。
发明内容
本公开提供了一种地理与视觉跨模态预训练模型的训练方法、位置确定方法、装置、电子设备以及存储介质。
根据本公开的一方面,提供了一种地理与视觉跨模态预训练模型的训练方法,包括:
基于地图数据构建预训练数据集;
根据预训练数据集和预训练目标,对待训练模型进行模型训练,得到多视觉任务约束的第一预训练模型。
根据本公开的另一方面,提供了一种位置确定方法,包括:
从获取的众包数据中提取第一图像信息及与第一图像信息对应的第一地理位置信息;
将第一图像信息及第一地理位置信息输入多视觉任务约束的第一预训练模型,输出目标特征;
根据目标特征,对所述多视觉任务中的任一个视觉任务进行图像处理,得到图像对应的地理位置信息。
根据本公开的另一方面,提供了一种地理与视觉跨模态预训练模型的训练装置,包括:
构建模块,用于基于地图数据构建预训练数据集;
训练模块,用于根据预训练数据集和预训练目标,对待训练模型进行模型训练,得到多视觉任务约束的第一预训练模型。
根据本公开的另一方面,提供了一种位置确定装置,包括:
提取模块,用于从获取的众包数据中提取第一图像信息及与第一图像信息对应的第一地理位置信息;
输入模块,用于将第一图像信息及第一地理位置信息输入多视觉任务约束的第一预训练模型,输出目标特征;
第一处理模块,用于根据目标特征,对多视觉任务中的任一个视觉任务进行图像处理,得到图像对应的地理位置信息。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与该至少一个处理器通信连接的存储器;其中,
该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本公开任意一实施例所提供的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使该计算机执行本公开任意一项实施例所提供的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210638232.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种全周光LED灯丝灯
- 下一篇:一种托盘转接的方法