[发明专利]用于非结构化文档搜索的方法及装置有效
申请号: | 201611176855.5 | 申请日: | 2016-12-19 |
公开(公告)号: | CN106777140B | 公开(公告)日: | 2020-04-10 |
发明(设计)人: | 张忍;荆凯 | 申请(专利权)人: | 北京天广汇通科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 姜怡;袁礼君 |
地址: | 100098 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 结构 文档 搜索 方法 装置 | ||
技术领域
本发明涉及数据库信息处理领域,具体而言,涉及一种用于非结构化文档搜索的方法及装置。
背景技术
我们生活中的数据总体分为两种:结构化数据和非结构化数据。结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等。非结构化数据:指不定长或无固定格式的数据,如邮件,word文档等。当然有的地方还会提到第三种数据,半结构化数据,如XML,HTML等,半结构化数据根据需要可按结构化数据来处理,也可抽取出纯文本按非结构化数据来处理。非结构化数据又称为全文数据。按照数据不同的分类,数据的搜索也分为两种:对结构化数据的搜索:如对数据库的搜索,可例如,使用SQL语句。再如对元数据的搜索,可例如,利用windows搜索对文件名,类型,修改时间进行搜索等。对非结构化数据的搜索:可例如,利用windows的搜索可以搜索文件内容,还可例如,利用Linux下的grep命令,还可例如,用Google和百度可以搜索大量内容数据。
随着信息化的高速发展,企业、政府机关的非结构化数据的数据量急速膨胀,使得非结构化数据的可搜索化成为亟待解决的一个问题。非结构化数据搜索需要为非结构化文件提供方便快捷的搜索功能,最终达到非结构化数据能够与结构化数据的搜索一样,提供垂直搜索服务。
因此,需要一种用于非结构化文档搜索的方法及装置。
在所述背景技术部分公开的上述信息仅用于加强对本发明的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本发明提供一种用于非结构化文档搜索的方法及装置,能够对海量非结构化文档数据进行近实时搜索。
本发明的其他特性和优点将通过下面的详细描述变得显然,或部分的通过本发明的实践而习得。
根据本发明的一方面,提出一种用于非结构化文档搜索的方法,该方法包括:获取非结构化文档;解析非结构化文档,以提取非结构化文档的元数据和内容;以及将元数据和内容远程上传至索引服务器。
在本公开的一种示例性实施例中,解析非结构化文档,包括:确定非结构化文档待索引的域,以及域的权重;生成自适应的索引结构;以及根据Mapping结构解析非结构化文档。
在本公开的一种示例性实施例中,生成自适应索引结构,包括:根据非结构化文档的规模,生成自适应的索引结构。
在本公开的一种示例性实施例中,还包括:确定非结构化文档的Mapping结构。
在本公开的一种示例性实施例中,还包括:发送搜索请求,搜索请求包括:确定域搜索请求、不确定域搜索请求。
根据本发明的一方面,提出一种用于非结构化文档搜索的方法,该方法包括:初始化服务器;获取非结构化文档的元数据和内容;以及储存和/或索引非结构化文档的元数据和内容。
在本公开的一种示例性实施例中,初始化服务器,包括:部署数据库集群和索引集群;初始化数据库表结构;以及初始化索引结构。
在本公开的一种示例性实施例中,初始化服务器,还包括:部署分布式文件系统。
在本公开的一种示例性实施例中,索引集群,包括:Elasticsearch索引服务器。
在本公开的一种示例性实施例中,索引结构,包括:Mapping结构。
在本公开的一种示例性实施例中,服务器,包括:文件服务器、数据库服务器以及索引服务器。
在本公开的一种示例性实施例中,包括:文件服务器与数据库服务器、索引服务器通信,存储和/或索引非结构化文档。
在本公开的一种示例性实施例中,还包括:接收搜索请求,并提供搜索结果,搜索请求包括:确定域搜索请求、不确定域搜索请求。
根据本发明的一方面,提出一种用于非结构化文档搜索的装置,该装置包括:第一接收模块,用于获取非结构化文档;解析模块,用于解析非结构化文档,以提取非结构化文档的元数据和内容;以及上传模块,用于将元数据和内容远程上传至索引服务器。
在本公开的一种示例性实施例中,解析模块,包括:确定域子模块,用于确定非结构化文档待索引的域,以及域的权重;结构子模块,用于生成自适应的索引结构;以及解析子模块,用于根据Mapping结构解析所述非结构化文档。
根据本发明的一方面,提出一种用于非结构化文档搜索的装置,该装置包括:初始化模块,用于初始化服务器;第二接收模块,用于获取非结构化文档的元数据和内容;以及索引模块,用于储存和/或索引非结构化文档的元数据和内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京天广汇通科技有限公司,未经北京天广汇通科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611176855.5/2.html,转载请声明来源钻瓜专利网。