[发明专利]关键词提取方法、关键词提取装置及电子设备有效

专利信息
申请号: 201911285457.0 申请日: 2019-12-13
公开(公告)号: CN111078838B 公开(公告)日: 2023-08-18
发明(设计)人: 过群;鲁骁;孟二利;王斌;史亮;齐保元;纪鸿旭 申请(专利权)人: 北京小米智能科技有限公司
主分类号: G06F16/33 分类号: G06F16/33;G06F16/35;G06F40/289;G06F40/30;G06F18/23213
代理公司: 北京钲霖知识产权代理有限公司 11722 代理人: 李英艳;李志新
地址: 100085 北京市海淀区清河*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 关键词 提取 方法 装置 电子设备
【说明书】:

本公开是关于一种关键词提取方法、关键词提取装置及电子设备。其中关键词提取方法,包括:接收原始文档;从原始文档中提取候选词构成第一词语集合;获取第一词语集合中每个候选词与原始文档的第一关联度,根据第一关联度确定第二词语集合;基于原始文档,通过预测模型生成预测词,所得到的预测词构成第三词语集合;确定第二词语集合和第三词语集合的并集,获取并集中每个候选关键词与原始文档的第二关联度,并且获取并集中每个候选关键词的发散度;基于第二关联度和发散度,从并集中选择至少一个候选关键词作为关键词,构成关键词集合。通过关键词之间的发散度,从而解决关键词冗余的问题,关键词不受候选词词频的影响,丰富关键词的表达方式。

技术领域

本公开涉及文本处理技术领域,尤其涉及关键词提取方法、关键词提取装置及电子设备和计算机可读存储介质。

背景技术

随着互联网文本数据的爆炸式增长,相关业务中经常需要提取能概括文章核心观点的关键词,以实现精准推荐、重点标注等功能。

此类业务在执行时具有标准主观性强,而且难以获取可用标注语料,从而导致传统方法的准确度不高,并且十分耗费计算时间。

相关技术中,关键词提取可以通过关键词抽取(针对文内已出现的词)与关键词生成(针对文内未出现的词)两种方法来实现。关键词抽取主要的方法有:基于统计的方法,基于图的方法,和基于序列标注的方法。基于统计的方法高度依赖于专家对统计特征的设计,而基于图的方法时间复杂度一般较高(一般在O(n2)以上)。并且两种方法有一个共同的缺陷,不能保证筛选出来的关键词与文本存在语义的关联关系,并且倾向于将频繁词作为关键词。而基于序列标注的方法是有监督方法,依赖于标注语料,并且只适用于训练语料领域的任务。

目前,关键词提取的方式具有以下缺点:传统的提取关键词方法的准确/覆盖率低,并且基于统计特征和图随机游走的方法,不能保证提取的关键词与文章存在语义关联关系,特别是在文章存在多个话题的情况下;传统的关键词提取方法,难以控制关键词之间的相似关系,容易生成冗余的关键词;传统的关键词提取方法,更倾向于提取高频常见词汇,而高频词汇不一定适合概括文章语义;传统的关键词生成方式,与关键词提取方式不在同一个语义框架中,从而导致两个框架难以结合互补。

发明内容

为克服相关技术中存在的问题,本公开提供一种关键词提取方法、关键词提取装置及电子设备和计算机可读存储介质。

根据本公开实施例的第一方面,提供一种关键词提取方法,方法包括:接收原始文档;从原始文档中提取候选词,所提取的候选词构成第一词语集合;获取第一词语集合中每个候选词与原始文档的第一关联度,根据第一关联度确定第二词语集合,第二词语集合为第一词语集合的子集;基于原始文档,通过预测模型生成预测词,所得到的预测词构成第三词语集合;确定第二词语集合和第三词语集合的并集;获取并集中每个候选关键词与原始文档的第二关联度;获取并集中每个候选关键词的发散度;基于第二关联度和发散度,从并集中选择至少一个候选关键词作为关键词,构成原始文档的关键词集合。

在一实施例中,基于第二关联度和发散度,从并集中选择至少一个候选关键词作为关键词,构成原始文档的关键词集合,包括:判断并集中每个候选关键词的第二关联度是否大于预设关联度阈值,并判断并集中每个候选关键词的发散度是否大于预设发散度阈值;从并集中选择第二关联度大于预设关联度阈值且发散度大于预设发散度阈值的至少一个候选关键词;将至少一个候选关键词作为关键词。

在一实施例中,在判断并集中每个候选关键词的第二关联度是否大于预设关联度阈值之前,还包括:将并集中来自第三词语集合的部分候选关键词的第二关联度乘以一个补偿系数,作为最终确定的第二关联度,补偿系数大于1。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京小米智能科技有限公司,未经北京小米智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911285457.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top