[发明专利]一种分布式企业信息垂直搜索方法在审
申请号: | 201510269583.2 | 申请日: | 2015-05-25 |
公开(公告)号: | CN104899268A | 公开(公告)日: | 2015-09-09 |
发明(设计)人: | 范莹;于治楼 | 申请(专利权)人: | 浪潮集团有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 姜明 |
地址: | 250101 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 企业信息 垂直 搜索 方法 | ||
1.一种分布式企业信息垂直搜索方法,其特征在于:包括数据采集模块,数据索引模块,综合搜索模块,企业搜索模块和用户权限管理模块;首先,所述数据采集模块使用网络爬虫到相关信息的网站爬取相关网页;然后,所述数据索引模块对爬取的相关网页数据进行清洗,并建立索引;第三,所述综合搜索模块和企业搜索模块接收查询关键词,并提交给solr服务,从建立的索引文件中进行查询;最后,所述用户权限管理模块完成系统用户权限管理,根据权限对查询结果进行按需推送。
2.根据权利要求1所述的分布式企业信息垂直搜索方法,其特征在于:以税务部门提供的相关纳税人为关键词,所述数据采集模块使用网络爬虫到各搜索引擎百科、招聘网、企业官网、新闻网站、股市信息网站等可能包含与纳税人相关信息的网站爬取相关网页,并将网页源文件保存到hbase数据库中。
3.根据权利要求2所述的分布式企业信息垂直搜索方法,其特征在于:所述数据采集模块还为每个数据来源网站建立适用的下载更新策略,启动定时更新任务,能够保证网页信息的实时性。
4.根据权利要求1所述的分布式企业信息垂直搜索方法,其特征在于:所述数据索引模块,对所述网页源文件进行去重、正文提取、分类、解析等清洗、处理工作,并将处理结果信息存储hbase数据库中,同时还要为网页数据及相关类别、行业信息建立全文索引文件。
5.根据权利要求4所述的分布式企业信息垂直搜索方法,其特征在于:所述数据索引模块网页去重、分类采用自然语言处理中的文本相似性算法进行处理,正文提取采用基于DOM树和文字-链接比以及各种过滤器实现,解析处理采用隐马尔科夫实体词识别等机器学习技术实现。
6.根据权利要求4所述的分布式企业信息垂直搜索方法,其特征在于:所述数据索引模块采用Solr Cloud建立分布式索引服务体系,使用solr的客户端开发API对网页源数据进行读取、格式化并提交给索引服务器建立索引文件。
7.根据权利要求1所述的分布式企业信息垂直搜索方法,其特征在于:所述综合搜索模块查询后返回符合条件的所有网页,并按相关企业,新闻动态,股市行情,相关政策法规4个类别进行分类显示标题,标题链接具体内容。
8.根据权利要求1所述的分布式企业信息垂直搜索方法,其特征在于:所述企业搜索模块查询后返回符合条件的企业,按照所属行业,从业人数,区域进行搜索结果过滤,并按照综合排名,搜索量,开业日期,关注量进行排序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮集团有限公司,未经浪潮集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510269583.2/1.html,转载请声明来源钻瓜专利网。