[发明专利]一种主题词提取方法、装置、设备及存储介质有效

专利信息
申请号: 202011573897.9 申请日: 2020-12-28
公开(公告)号: CN112287682B 公开(公告)日: 2021-06-08
发明(设计)人: 赵冲;李青龙;骆飞 申请(专利权)人: 北京智慧星光信息技术有限公司
主分类号: G06F40/289 分类号: G06F40/289;G06F40/216
代理公司: 北京鸿元知识产权代理有限公司 11327 代理人: 董永辉;曹素云
地址: 100089 北京市海*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 主题词 提取 方法 装置 设备 存储 介质
【说明书】:

发明公开一种主题词提取方法、装置、设备及存储介质,方法包括:使用TF‑IDF模型对提取范围内各文章的词分别计算TF‑IDF分数,将TF‑IDF分数高于第一设定阈值的作为各文章的第一主题词,其中提取范围是指设定的包含多篇文章的文本集合;将各文章的所述第一主题词分别计算IDAYF分数,并与所述TF‑IDF分数相乘,获得TF‑IDF‑IDAYF分数,其中所述IDAYF分数是将所述第一主题词在历史语料中出现的时间段均值与所述第一主题词在当前时间段在提取范围中出现的次数的比值,所述历史语料是指在设定历史时间内在所述提取范围中出现的文章;将TF‑IDF‑IDAYF分数高于第二设定阈值的作为各文章的最终主题词。本发明基于时间因素的TF‑IDF‑IDAYF的计算模式,可以达到更好的主题词提取效果。

技术领域

本发明涉及信息检索与数据挖掘领域,更详细的说,涉及一种主题词提取方法、装置、设备及存储介质。

背景技术

随着信息检索与数据挖掘行业的发展,文章数据的挖掘在当今发达的互联网环境下显得越来越有价值。通过对文章数据作为分析对象,针对文章特征进行预处理,高效准确提取有价值的信息,成为文章数据挖掘行业研究的焦点。

现有文章数据挖掘领域对文章数据进行研究主要针对中文文章进行特征预处理,对主要特征进行提取,通常用到TF-IDF(term frequency–inverse document frequency)算法。TF-IDF算法是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(TermFrequency),IDF是逆文章频率指数(Inverse Document Frequency)。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。

在TF-IDF算法中,主题词的计算与词频和逆文章频率有着极其紧密的联系,这对于单一文章的主题词提取有着比较好的效果。但是在针对短期内爆发的舆情事件,TF-IDF算法对时间没有敏感性,不能有效的对连续时间内舆情事件相关的主题词进行提取。

发明内容

本发明在文章信息处理的过程中,对TF-IDF算法进行改进,引入时间关联性,实现一种加入时间衰减和时间加强特性的TF-IDF-IDAYF的计算模式。

本发明的技术方案如下:

一种主题词提取方法,包括:

使用TF-IDF模型对提取范围内各文章的词分别计算TF-IDF分数,将TF-IDF分数高于第一设定阈值的作为各文章的第一主题词,其中提取范围是指设定的包含多篇文章的文本集合;

将各文章的所述第一主题词分别计算IDAYF分数,并与所述TF-IDF分数相乘,获得TF-IDF-IDAYF分数,其中所述IDAYF分数是将所述第一主题词在历史语料中出现的时间段均值与所述第一主题词在当前时间段在提取范围中出现的次数的比值,所述历史语料是指在设定历史时间内在所述提取范围中出现的文章;

将TF-IDF-IDAYF分数高于第二设定阈值的作为各文章的最终主题词。

可选地,计算IDAYF分数的公式如下:

表示第m个第一主题词在历史语料中出现的次数;

t表示设定历史时间所包含的时间段数量;

表示在设定历史时间内,第m个第一主题词在提取范围中出现次数的时间段均值;

表示第m个第一主题词在当前时间段在提取范围中出现的次数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智慧星光信息技术有限公司,未经北京智慧星光信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011573897.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top