[发明专利]一种自适应文本检索方法在审
申请号: | 201810657307.7 | 申请日: | 2018-06-25 |
公开(公告)号: | CN108920576A | 公开(公告)日: | 2018-11-30 |
发明(设计)人: | 么永辉 | 申请(专利权)人: | 中科点击(北京)科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京兆君联合知识产权代理事务所(普通合伙) 11333 | 代理人: | 刘俊玲 |
地址: | 100193 北京市海淀区东*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本检索 自适应 词库 分词 检索 分词结果 索引文本 粗粒度 索引库 细粒度 算法 方法和装置 训练语料库 检索文本 文本索引 检索词 实时性 无监督 热词 索引 文本 更新 分析 发现 | ||
1.一种基于自适应文本检索方法,包括如下步骤:
S1:将训练语料库生成词库;
S2:利用步骤S1生成的词库,对于待索引文本使用细粒度分词算法进行分词拆分,并利用细粒度分词结果将文本索引到Elasticsearch(ES);
S3:检索时,对待检索词使用粗粒度分词算法进行分析,利用粗粒度分词结果在ES索引库中进行检索;及
S4:根据ES的索引文本和用户的检索文本对词库进行更新,自适应的调整ES检索和索引的分词词库。
2.如权利要求1所述的自适应文本检索方法,其特征在于,S1所述的将训练语料库生成词库,具体包括步骤:
S11:逐字扫描训练语料中的句子,计算单个字出现的概率以及两字相邻共现的概率,如果相邻两字满足公式P(W1W2)<P(W1)*P(W2),则将两字断开;
其中,P(Wn)表示单个字出现的概率,n=1,2,且P(W1W2)表示两字相邻共现的概率,且
S12:按照步骤S11的方法将句子划分成若干长度不大于7的子串,作为候选词;
S13:收录所述候选词中相对稳定周期性重现的词汇进入词库。
3.如权利要求2所述的自适应文本检索方法,其特征在于,句子S的最佳分词方案为满足公式P(S)=P(W1,W2,…Wn)最大,其中,P(S)表示句子S出现的概率,Wn表示最佳分词方案中的各个词,P(W1,W2,…Wn)表示分词方案中各词的联合概率,直到词频的波动小于0.75,即可获得成熟的词库。
4.如权利要求1所述的自适应文本检索方法,其特征在于,S2所述的对于待索引文本使用细粒度分词算法进行分词拆分,具体包括步骤:
S21:逐字扫描句子,从所述词库中查出字长在4以内、以该字结尾的所有词,分别计算其中的词与所述词之前各词的概率乘积,取结果值最大的词,分别缓存下当前字所在位置的最大概率积,以及对应的分词结果;
S22:重复所述步骤S21,直到句子扫描完毕,最后一字位置所得到即为整句分词结果。
5.如权利要求1所述的自适应文本检索方法,其特征在于,步骤S2中的细粒度分词算法的粒度不大于4,步骤S3中的粗粒度分词算法的粒度不大于7。
6.一种自适应文本检索装置,包括:
词库生成模块,用来将训练语料库生成词库;
分词拆分和文本索引模块,用来利用所述生成的词库,对于待索引文本使用细粒度分词算法进行分词拆分,并利用细粒度分词结果将文本索引到Elasticsearch(ES);
检索模块,用来对待检索词使用粗粒度分词算法进行分析,利用粗粒度分词结果在ES索引库中进行检索;及
词库更新模块,用来根据ES的索引文本和用户的检索文本对词库进行更新,自适应的调整ES检索和索引的分词词库。
7.如权利要求6所述的自适应文本检索装置,其特征在于,所述词库生成模块,包括:
概率计算模块,用来逐字扫描训练语料中的句子,计算单个字出现的概率以及两字相邻共现的概率,如果相邻两字满足公式P(W1W2)<P(W1)*P(W2),则将两字断开;其中,P(Wn)表示单个字出现的概率,n=1,2,且P(W1W2)表示两字相邻共现的概率,且
句子划分模块,用来按照概率计算模块的方法将句子划分成若干长度不大于7的子串,作为候选词;
收录模块,用来收录所述候选词中相对稳定周期性重现的词汇进入词库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科点击(北京)科技有限公司,未经中科点击(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810657307.7/1.html,转载请声明来源钻瓜专利网。