[发明专利]一种信息检索的方法及装置在审
申请号: | 201611090773.9 | 申请日: | 2016-11-30 |
公开(公告)号: | CN106776929A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 童克冬 | 申请(专利权)人: | 北京锐安科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京品源专利代理有限公司11332 | 代理人: | 胡彬,邓猛烈 |
地址: | 100044 北京市海淀区西小口*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 信息 检索 方法 装置 | ||
技术领域
本发明实施例涉及大数据的技术领域,尤其涉及一种信息检索的方法及装置。
背景技术
随着大数据逐步走过了探索阶段、市场启动阶段,大数据已经进入从概念到实际应用的关键转折期。大数据在接受度、技术、应用等各个方面趋于成熟,开始步入产业的快速发展阶段。大数据巨大的应用价值带动了大数据行业的迅速发展,预测到2017年全球大数据技术和服务市场的2018年的复合年增长率将达到26.4%,规模达到415亿美元,是整个IT市场增幅的6倍。大数据市场规模在2020年有望达到611.6亿美元,符合年增长率将达到26%。
在大数据技术迅速发展和广泛应用的同时,大数据也正在面临网络攻击、数据泄露等严重安全问题,国内外各种信息泄露的数据安全事件频频发生。如:美国“棱镜门”事件、国家重要基础设施攻击事件(乌克兰电厂事件、伊朗的震网病毒Stuxnet、Flame火焰病毒、Duqu病毒等)、各类重大数据泄露事件(携程漏洞事件、中国快递1400万用户信息泄露、eBay数据大泄漏、12306用户数据泄露、500万谷歌账户信息被泄露、CSDN网站600万用户信息外泄事件)、各类重大网络安全事件(OpenSSL心脏出血漏洞)。
以上说明各类事件表明需要加强国产自主可控基础软硬件的验证与推广的迫切性。大数据时代对于信息安全的自主可控提出了更高的要求。大数据平台中的海量数据中可能包含大量敏感信息、甚至国家机密信息。这些信息存在被窃取和泄漏的风险,一旦这些数据被恶意攻击者掌握,后果将不堪设想。需要提高信息安全领域基础设施大数据平台的安全防护能力,实现信息安全领域基础设施的安全性。
目前,我国计算机及网络信息系统使用的主要操作系统和芯片、数据库、路由器等核心技术,以及互联网领域的核心基础服务等,掌握在美国企业手中。缺少自主可控的技术和能力是我国信息安全面临的最大隐患。外国开发、销售的软硬件信息系统和信息安全隐患问题突出,各类的系统后门、木马、软件陷阱、逻辑炸弹等防不胜防。迫切需要国内IT企业和行业共同研发自主可控、自主知识产权的信息系统、信息环境和信息安全产品。
发明内容
本发明实施例的目的在于提出一种信息检索的方法及装置,旨在解决大数据平台中的信息检索组件Solr在国产基础软硬件的迁移、适配以及优化的问题。
为达此目的,本发明实施例采用以下技术方案:
第一方面,一种信息检索的方法,所述方法包括:
将大数据平台软件迁移到一个预设软硬件平台,所述迁移包括开发环境的迁移和运行环境的迁移,以及应用软件的移植和适配;
在所述迁移之后,在索引建立过程和信息检索过程中,通过并行处理、数据缓存、分片处理、读写分离和负载分担,对信息的采集、存储及查询进行性能优化。
优选地,所述索引建立过程,包括:
将采集到的各文档放到各服务器的本地文件系统的预设目录中,通过分词组件Tokenizer获取词元Token,所述分词组件用于将文档分成单独的单词、去除标点符号和去除停词;
由语言处理组件Linguistic Processor对所述词元Token通过语言处理组件得到词Term,所述语言处理组件用于变为小写Lowercase、将单词缩减为词根形式和将单词转变为词根形式;
由索引组件Indexer对所述词Term进行索引处理组件得到索引-文档倒排链表Posting List,所述索引处理组件用于为所述词Term创建字典、对所述字典按字母顺序进行排序并合并相同的词Term成为文档倒排Posting List的链表;
通过索引存储Storage将所述索引-文档倒排链表Posting List写入磁盘文件系统。
优选地,所述信息检索过程,包括:
将输入的查询语句SQL,经过词法分析得到单词关键字;
通过语法分析组件对所述单词关键字进行语法分析;
通过所述语言处理组件处理并输出词Term;
搜索索引并根据上一环节的词Term从磁盘中的索引文件中进行搜索;
经过搜索索引组件检索得到符合条件的文档,再由结果排序组件进行排序后返回查询结果。
优选地,所述经过搜索索引组件检索得到符合条件的文档,包括:
在反向索引表中,分别找出包含第一关键词、第二关键词和第三关键词的文档链表;
对包含所述第一关键词和所述第二关键词的链表进行合并操作,得到同时包含所述第一关键词和所述第二关键词的文档链表;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京锐安科技有限公司,未经北京锐安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611090773.9/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置