[发明专利]热更新搜索引擎分词字典的方法及装置有效
申请号: | 202110562994.6 | 申请日: | 2021-05-24 |
公开(公告)号: | CN113190644B | 公开(公告)日: | 2023-01-13 |
发明(设计)人: | 陈晏鹏;王宁 | 申请(专利权)人: | 浪潮软件科技有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33;G06F16/36;G06F16/335 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 孙园园 |
地址: | 250100 山东省济*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 更新 搜索引擎 分词 字典 方法 装置 | ||
本发明公开了热更新搜索引擎分词字典的方法及装置,属于全文检索技术领域,本发明要解决的技术问题为如何提高搜索结果的准确度,采用的技术方案为:该方法是基于用户搜索日志自动发现新词,并将新词以热更新的方式写入到分词字典中;具体如下:索引配置:通过分析用户搜索日志发现新词,并实时应用到新的搜索过程中;自动发现新词:根据共现率计算算法分析用户搜索日志,找出当前字典中尚未包含的新词;热更新字典:将新词通过热更新方式写入分词字典中,新字典可立即生效。该系统包括索引配置单元、发现单元及热更新单元。
技术领域
本发明涉及全文检索领域,具体地说是一种热更新搜索引擎分词字典的方法及装置。
背景技术
文库系统需要将大量文章收录在系统中供用户查询、浏览、下载,对文库中文章内容的查询通常借助搜索引擎实现。就中文文章来说,搜索引擎实现中文搜索的原理如下:首先提取中文文章的标题、摘要、作者、正文等信息,利用中文分词器将大段文本如标题、摘要、正文分成一个个的中文短语,并把短语与文章的关联关系存储下来,这就是建立倒排索引的过程。在搜索时,将搜索词也进行中文分词,利用分词后短语来匹配搜索引擎库中的短语,匹配成功后将短语关联的文档返回到前端,用户就得到了所需的搜索结果。
中文分词器是根据字典来进行分词的,字典决定了索引库中包含哪些短语。社会发展日新月异,每年都在产生很多新词语,如“新基建”一词,一经提出,迅速出现在众多文章中。对于这类新词语,如果搜索引擎不及时更新,仍按旧的分词方式,未将“新基建”当作一个词语时,大量与“新”和“基建”相关的文章就会被搜索出来,严重影响用户体验。此时,便需要及时发现这类新词并加入到分词字典中。另外,更新分词字典往往需要重建现有索引,才能让新词对原有索引生效。对于文库系统来说,搜索引擎的索引库数据量十分庞大,频繁重建索引是不现实的。因此,如何提高搜索结果的准确度是目前亟待解决的问题。
发明内容
本发明的技术任务是提供一种热更新搜索引擎分词字典的方法及装置,来解决如何提高搜索结果的准确度的问题。
本发明的技术任务是按以下方式实现的,一种热更新搜索引擎分词字典的方法,该方法是基于用户搜索日志自动发现新词,并将新词以热更新的方式写入到分词字典中;具体如下:
索引配置:通过分析用户搜索日志发现新词,并实时应用到新的搜索过程中;
自动发现新词:根据共现率计算算法分析用户搜索日志,找出当前字典中尚未包含的新词;
热更新字典:将新词通过热更新方式写入分词字典中,新字典可立即生效。
作为优选,索引配置具体如下:
将文章信息写入搜索引擎库;
遍历搜索日志,处理搜索词,获取候选序列;
分别计算候选序列中序列出现频次及每个词元出现的频次,并设定频次阈值,判断次元的频次是否小于阈值:
若是,则过滤掉小于阈值的词元及对应候选序列。
更优地,将文章信息写入搜索引擎库具体如下:
索引:采用NGram分词方式将文章信息进行分词并创建倒排索引,该分词器不依赖于分词字典,仅与文章字面数据有关;
搜索:采用IK中文分词器与NGram分词器相结合的方式对用户输入的搜索信息进行分词、匹配。
更优地,遍历搜索日志,处理搜索词,获取候选序列具体如下:
把搜索词按空格分成短语;
用IK中文分词器与NGram分词器进行分词处理,找出可能是新词语的短语,即被分解成包含多个词元的序列;
将分解后序列按顺序进行组合,获得k元序列(k=2,3,4),即候选序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮软件科技有限公司,未经浪潮软件科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110562994.6/2.html,转载请声明来源钻瓜专利网。