[发明专利]基于大数据的数据搜索方法及系统在审
| 申请号: | 202111633114.6 | 申请日: | 2021-12-29 |
| 公开(公告)号: | CN114357212A | 公开(公告)日: | 2022-04-15 |
| 发明(设计)人: | 田家栋;张东昱;陈方兵 | 申请(专利权)人: | 深圳阿塔基科技有限公司 |
| 主分类号: | G06F16/532 | 分类号: | G06F16/532;G06F16/538;G06F16/55;G06F16/583;G06K9/62;G06V10/764 |
| 代理公司: | 深圳市众元信科专利代理有限公司 44757 | 代理人: | 郑妍宇 |
| 地址: | 518000 广东省深圳市宝安*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 数据 搜索 方法 系统 | ||
1.一种基于大数据的数据搜索方法,其特征在于,所述方法包括如下步骤:
终端设备采集待搜索对象的第一图像,对第一图像进行分类识别确定第一图像中的n个文字区域与n个图片区域;
终端设备将n个文字区域与n个图片区域按预设的文字区域与图片区域之间的位置关系将n个文字区域和n个图片区域划分成n个搜索区域;
终端设备将n个搜索区域分别输入到搜索引擎中,搜索引擎在大数据中搜索得到n个搜索区域的结果,每个搜索区域的结果均包含多个搜索结果以及多个搜索结果对应的置信率;
终端设备保留每个搜索区域的结果中置信率大于置信阈值的m个搜索结果,提取n个搜索区域的所有结果即n*m个结果,统计n*m个结果中相同结果的数量,选择相同结果的数量的最大数量值对应的第一结果为该第一图像的最终结果。
2.根据权利要求1所述的方法,其特征在于,所述述终端设备将n个文字区域与n个图片区域按预设的文字区域与图片区域之间的位置关系将n个文字区域和n个图片区域划分成n个搜索区域具体包括:
终端设备从n个图片区域中提取第一图片区域,抓取第一图片区域的中心点O,以中心点为端点发射多条射线,获取多条射线中与一个文字区域相交的w1条射线,提取w条射线中与文字区域第一相交的w1个端点,获取中心点O与w1个端点之间的w1个线段之间的距离得到w1个距离,计算w1个距离的平均值β1;遍历所有的文字区域得到n-1个距离的平均值,从n个距离平均值中确定最小值βmin且βmin小于距离阈值的第一文字区域确定为第一图片区域对应的文字区域,将第一文字区域确定为第一图片区域的范围组合起来得到一个搜索区域,终端设备遍历n个图片区域中剩余图片区域得到剩余的搜索区域。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
终端设备依据该置信阈值的区间来确定m的取值。
4.根据权利要求3所述的方法,其特征在于,所述终端设备依据该置信阈值的区间来确定m的取值具体包括:
终端设备确定置信阈值对应的第一区间,依据区间与m的映射关系提取第一区间对应的m的取值。
5.一种基于大数据的数据搜索系统,其特征在于,所述系统包括:
采集单元,用于采集待搜索对象的第一图像,对第一图像进行分类识别确定第一图像中的n个文字区域与n个图片区域;
处理单元,用于将n个文字区域与n个图片区域按预设的文字区域与图片区域之间的位置关系将n个文字区域和n个图片区域划分成n个搜索区域;将n个搜索区域分别输入到搜索引擎中,搜索引擎在大数据中搜索得到n个搜索区域的结果,每个搜索区域的结果均包含多个搜索结果以及多个搜索结果对应的置信率;保留每个搜索区域的结果中置信率大于置信阈值的m个搜索结果,提取n个搜索区域的所有结果即n*m个结果,统计n*m个结果中相同结果的数量,选择相同结果的数量的最大数量值对应的第一结果为该第一图像的最终结果。
6.根据权利要求5所述的系统,其特征在于,
所述处理单元,具体用于从n个图片区域中提取第一图片区域,抓取第一图片区域的中心点O,以中心点为端点发射多条射线,获取多条射线中与一个文字区域相交的w1条射线,提取w条射线中与文字区域第一相交的w1个端点,获取中心点O与w1个端点之间的w1个线段之间的距离得到w1个距离,计算w1个距离的平均值β1;遍历所有的文字区域得到n-1个距离的平均值,从n个距离平均值中确定最小值βmin且βmin小于距离阈值的第一文字区域确定为第一图片区域对应的文字区域,将第一文字区域确定为第一图片区域的范围组合起来得到一个搜索区域,终端设备遍历n个图片区域中剩余图片区域得到剩余的搜索区域。
7.根据权利要求5所述的系统,其特征在于,
所述处理单元,还用于依据该置信阈值的区间来确定m的取值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳阿塔基科技有限公司,未经深圳阿塔基科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111633114.6/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





