[发明专利]一种基于互联网的图文搜索引擎在审
申请号: | 201710420054.7 | 申请日: | 2017-06-06 |
公开(公告)号: | CN107247772A | 公开(公告)日: | 2017-10-13 |
发明(设计)人: | 叶飞;孙萍;曹增安;许兵 | 申请(专利权)人: | 合肥创旗信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京和信华成知识产权代理事务所(普通合伙)11390 | 代理人: | 胡剑辉 |
地址: | 230000 安徽省合肥市高新*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于互联网的图文搜索引擎,设置网页抓取模块页面抓取,存储至页面库,分别设置信息抓取模块和图像识别模块对抓取页面的图文内容进行解析、提取,存储到数据库,设置索引服务模块,调用Solr构建索引文件,存储至索引文件库,设置搜索服务模块对用户客户端输入的检索内容进行解析,并从索引文件库获取检索结果信息,加以解析,展示给用户;本发明基于Solr技术,建立高效、独立的企业级搜索引擎,根据互联网网站的特点,对网站页面抓取;使用信息抓取模块和图像识别模块完成图文信息提取,调用Solr构建索引文件,采用Solr工具实现整个信息检索,整个搜索引擎操作简捷,搭建效率高、成本低。 | ||
搜索关键词: | 一种 基于 互联网 图文 搜索引擎 | ||
【主权项】:
一种基于互联网的图文搜索引擎,其特征在于:包括服务器端以及通过互联网连接服务器端的用户客户端;所述服务器端包括网页抓取模块、页面库、信息抓取模块、图像识别模块、数据库、索引服务模块、索引文件库以及搜索服务模块;所述网页抓取模块,接入互联网,完成对预设的互联网网站所有页面的抓取,并将抓取的页面保存至页面库;所述页面库,用于存储网页抓取模块抓取的网站页面;所述信息抓取模块,用于对存储在页面库内的网站页面进行逐一读取,获取文字内容,分析其中的主体文字信息,存储至数据库中;所述图像识别模块,用于对存储在页面库内的网站页面进行逐一读取,获取图像数据,并识别其中包含的图像信息,存储至数据库中;所述数据库,用于存储信息抓取模块和图像识别模块获取的文字信息和图像信息;所述数据导入模块,用于将数据库中的文字信息和图像信息导入到索引服务模块,建立索引文件;所述索引服务模块,根据数据库中的文字信息和图像信息,调用Solr构建索引文件,并且可定时完成索引构建,存储到索引文件库;所述索引文件库,用于存储索引服务模块建立的索引文件;所述搜索服务模块,对用户客户端输入的检索内容进行解析,并从索引文件库获取检索结果信息,加以解析,转发至用户客户端。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥创旗信息科技有限公司,未经合肥创旗信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710420054.7/,转载请声明来源钻瓜专利网。