[发明专利]关键词提取方法、关键词提取装置及电子设备有效

专利信息
申请号: 201911285457.0 申请日: 2019-12-13
公开(公告)号: CN111078838B 公开(公告)日: 2023-08-18
发明(设计)人: 过群;鲁骁;孟二利;王斌;史亮;齐保元;纪鸿旭 申请(专利权)人: 北京小米智能科技有限公司
主分类号: G06F16/33 分类号: G06F16/33;G06F16/35;G06F40/289;G06F40/30;G06F18/23213
代理公司: 北京钲霖知识产权代理有限公司 11722 代理人: 李英艳;李志新
地址: 100085 北京市海淀区清河*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 关键词 提取 方法 装置 电子设备
【权利要求书】:

1.一种关键词提取方法,其特征在于,所述方法包括:

接收原始文档;

从所述原始文档中提取候选词,所提取的所述候选词构成第一词语集合;

获取所述第一词语集合中每个所述候选词与所述原始文档的第一关联度,根据所述第一关联度确定第二词语集合,所述第二词语集合为所述第一词语集合的子集;

基于所述原始文档,通过预测模型生成预测词,所得到的所述预测词构成第三词语集合;

确定所述第二词语集合和所述第三词语集合的并集,获取所述并集中每个候选关键词与所述原始文档的第二关联度,并且获取所述并集中每个候选关键词的发散度;

基于所述第二关联度和所述发散度,从所述并集中选择至少一个候选关键词作为关键词,构成所述原始文档的关键词集合;

所述获取所述并集中每个候选关键词的发散度,包括:

从所述并集中确定当前待判断候选关键词;

获取所述当前待判断候选关键词与所述原始文档的关联度,以及所述当前待判断候选关键词与已选择至所述关键词集合中的关键词的关联度;

基于所述当前待判断候选关键词与所述原始文档的关联度、所述当前待判断候选关键词与已选择至所述关键词集合中的关键词的关联度、以及预设发散度,确定所述当前待判断候选关键词的发散度,直至确定出所述并集中每个所述候选关键词的发散度。

2.根据权利要求1所述的关键词提取方法,其特征在于,所述基于所述第二关联度和所述发散度,从所述并集中选择至少一个候选关键词作为关键词,构成所述原始文档的关键词集合,包括:

判断所述并集中每个所述候选关键词的所述第二关联度是否大于预设关联度阈值,并判断所述并集中每个所述候选关键词的所述发散度是否大于预设发散度阈值;

从所述并集中选择所述第二关联度大于所述预设关联度阈值且所述发散度大于所述预设发散度阈值的至少一个候选关键词;

将所述至少一个候选关键词作为所述关键词。

3.根据权利要求2所述的关键词提取方法,其特征在于,在判断所述并集中每个所述候选关键词的所述第二关联度是否大于预设关联度阈值之前,还包括:

将所述并集中来自所述第三词语集合的部分候选关键词的第二关联度乘以一个补偿系数,作为最终确定的第二关联度,所述补偿系数大于1。

4.根据权利要求1所述的关键词提取方法,其特征在于,所述当前待判断候选关键词的发散度的计算公式为:

其中,x表示所述当前待判断候选关键词的词特征向量,y表示已选择至所述关键词集合中的关键词的词特征向量,S1(x,D)表示所述当前待判断候选关键词的发散度,S(x,D)表示所述当前待判断候选关键词与所述原始文档的关联度,Ysim(x,y)表示所述当前待判断候选关键词与已选择至所述关键词集合中的关键词的关联度,λ表示所述预设发散度,λ大于等于0且小于等于1。

5.根据权利要求1所述的关键词提取方法,其特征在于,所述从所述原始文档中提取候选词,包括:

根据基于预设短语粒度确定的候选词提取规则,从所述原始文档中提取与所述预设短语粒度相匹配的多个候选词;

其中,所述与所述预设短语粒度相匹配的候选词包括:名词性词语,或者修饰性词语与名词性词语组合的名词性词组。

6.根据权利要求1所述的关键词提取方法,其特征在于,所述方法还包括:

从所述原始文档中提取出动词性、名词性或修饰性的词语构成的降噪文档;

使用基于无标注语料训练的向量生成模型计算所述降噪文档的文档特征向量;

从所述降噪文档中提取出名词性词语或者修饰性词语与名词性词语组合的名词性词组构成待聚类词语集合;

使用所述向量生成模型,获取所述待聚类词语集合中每个待聚类词语的词语特征向量,根据所述词语特征向量对所述待聚类词语进行聚类,确定所述原始文档的多个聚类集合。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京小米智能科技有限公司,未经北京小米智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911285457.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top