[发明专利]一种自适应文本检索方法在审

专利信息
申请号: 201810657307.7 申请日: 2018-06-25
公开(公告)号: CN108920576A 公开(公告)日: 2018-11-30
发明(设计)人: 么永辉 申请(专利权)人: 中科点击(北京)科技有限公司
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 北京兆君联合知识产权代理事务所(普通合伙) 11333 代理人: 刘俊玲
地址: 100193 北京市海淀区东*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本检索 自适应 词库 分词 检索 分词结果 索引文本 粗粒度 索引库 细粒度 算法 方法和装置 训练语料库 检索文本 文本索引 检索词 实时性 无监督 热词 索引 文本 更新 分析 发现
【权利要求书】:

1.一种基于自适应文本检索方法,包括如下步骤:

S1:将训练语料库生成词库;

S2:利用步骤S1生成的词库,对于待索引文本使用细粒度分词算法进行分词拆分,并利用细粒度分词结果将文本索引到Elasticsearch(ES);

S3:检索时,对待检索词使用粗粒度分词算法进行分析,利用粗粒度分词结果在ES索引库中进行检索;及

S4:根据ES的索引文本和用户的检索文本对词库进行更新,自适应的调整ES检索和索引的分词词库。

2.如权利要求1所述的自适应文本检索方法,其特征在于,S1所述的将训练语料库生成词库,具体包括步骤:

S11:逐字扫描训练语料中的句子,计算单个字出现的概率以及两字相邻共现的概率,如果相邻两字满足公式P(W1W2)<P(W1)*P(W2),则将两字断开;

其中,P(Wn)表示单个字出现的概率,n=1,2,且P(W1W2)表示两字相邻共现的概率,且

S12:按照步骤S11的方法将句子划分成若干长度不大于7的子串,作为候选词;

S13:收录所述候选词中相对稳定周期性重现的词汇进入词库。

3.如权利要求2所述的自适应文本检索方法,其特征在于,句子S的最佳分词方案为满足公式P(S)=P(W1,W2,…Wn)最大,其中,P(S)表示句子S出现的概率,Wn表示最佳分词方案中的各个词,P(W1,W2,…Wn)表示分词方案中各词的联合概率,直到词频的波动小于0.75,即可获得成熟的词库。

4.如权利要求1所述的自适应文本检索方法,其特征在于,S2所述的对于待索引文本使用细粒度分词算法进行分词拆分,具体包括步骤:

S21:逐字扫描句子,从所述词库中查出字长在4以内、以该字结尾的所有词,分别计算其中的词与所述词之前各词的概率乘积,取结果值最大的词,分别缓存下当前字所在位置的最大概率积,以及对应的分词结果;

S22:重复所述步骤S21,直到句子扫描完毕,最后一字位置所得到即为整句分词结果。

5.如权利要求1所述的自适应文本检索方法,其特征在于,步骤S2中的细粒度分词算法的粒度不大于4,步骤S3中的粗粒度分词算法的粒度不大于7。

6.一种自适应文本检索装置,包括:

词库生成模块,用来将训练语料库生成词库;

分词拆分和文本索引模块,用来利用所述生成的词库,对于待索引文本使用细粒度分词算法进行分词拆分,并利用细粒度分词结果将文本索引到Elasticsearch(ES);

检索模块,用来对待检索词使用粗粒度分词算法进行分析,利用粗粒度分词结果在ES索引库中进行检索;及

词库更新模块,用来根据ES的索引文本和用户的检索文本对词库进行更新,自适应的调整ES检索和索引的分词词库。

7.如权利要求6所述的自适应文本检索装置,其特征在于,所述词库生成模块,包括:

概率计算模块,用来逐字扫描训练语料中的句子,计算单个字出现的概率以及两字相邻共现的概率,如果相邻两字满足公式P(W1W2)<P(W1)*P(W2),则将两字断开;其中,P(Wn)表示单个字出现的概率,n=1,2,且P(W1W2)表示两字相邻共现的概率,且

句子划分模块,用来按照概率计算模块的方法将句子划分成若干长度不大于7的子串,作为候选词;

收录模块,用来收录所述候选词中相对稳定周期性重现的词汇进入词库。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科点击(北京)科技有限公司,未经中科点击(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810657307.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top