[发明专利]一种主题词提取方法、装置、设备及存储介质有效

申请号：	202011573897.9	申请日：	2020-12-28
公开（公告）号：	CN112287682B	公开（公告）日：	2021-06-08
发明（设计）人：	赵冲;李青龙;骆飞	申请（专利权）人：	北京智慧星光信息技术有限公司
主分类号：	G06F40/289	分类号：	G06F40/289;G06F40/216
代理公司：	北京鸿元知识产权代理有限公司 11327	代理人：	董永辉;曹素云
地址：	100089 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种主题词提取方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开一种主题词提取方法、装置、设备及存储介质，方法包括：使用TF‑IDF模型对提取范围内各文章的词分别计算TF‑IDF分数，将TF‑IDF分数高于第一设定阈值的作为各文章的第一主题词，其中提取范围是指设定的包含多篇文章的文本集合；将各文章的所述第一主题词分别计算IDAYF分数，并与所述TF‑IDF分数相乘，获得TF‑IDF‑IDAYF分数，其中所述IDAYF分数是将所述第一主题词在历史语料中出现的时间段均值与所述第一主题词在当前时间段在提取范围中出现的次数的比值，所述历史语料是指在设定历史时间内在所述提取范围中出现的文章；将TF‑IDF‑IDAYF分数高于第二设定阈值的作为各文章的最终主题词。本发明基于时间因素的TF‑IDF‑IDAYF的计算模式，可以达到更好的主题词提取效果。

技术领域

本发明涉及信息检索与数据挖掘领域，更详细的说，涉及一种主题词提取方法、装置、设备及存储介质。

背景技术

随着信息检索与数据挖掘行业的发展，文章数据的挖掘在当今发达的互联网环境下显得越来越有价值。通过对文章数据作为分析对象，针对文章特征进行预处理，高效准确提取有价值的信息，成为文章数据挖掘行业研究的焦点。

现有文章数据挖掘领域对文章数据进行研究主要针对中文文章进行特征预处理，对主要特征进行提取，通常用到TF-IDF(term frequency–inverse document frequency)算法。TF-IDF算法是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(TermFrequency)，IDF是逆文章频率指数(Inverse Document Frequency)。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。

在TF-IDF算法中，主题词的计算与词频和逆文章频率有着极其紧密的联系，这对于单一文章的主题词提取有着比较好的效果。但是在针对短期内爆发的舆情事件，TF-IDF算法对时间没有敏感性，不能有效的对连续时间内舆情事件相关的主题词进行提取。

发明内容

本发明在文章信息处理的过程中，对TF-IDF算法进行改进，引入时间关联性，实现一种加入时间衰减和时间加强特性的TF-IDF-IDAYF的计算模式。

本发明的技术方案如下：

一种主题词提取方法，包括：

使用TF-IDF模型对提取范围内各文章的词分别计算TF-IDF分数，将TF-IDF分数高于第一设定阈值的作为各文章的第一主题词，其中提取范围是指设定的包含多篇文章的文本集合；

将各文章的所述第一主题词分别计算IDAYF分数，并与所述TF-IDF分数相乘，获得TF-IDF-IDAYF分数，其中所述IDAYF分数是将所述第一主题词在历史语料中出现的时间段均值与所述第一主题词在当前时间段在提取范围中出现的次数的比值，所述历史语料是指在设定历史时间内在所述提取范围中出现的文章；

将TF-IDF-IDAYF分数高于第二设定阈值的作为各文章的最终主题词。

可选地，计算IDAYF分数的公式如下:

表示第m个第一主题词在历史语料中出现的次数；

t表示设定历史时间所包含的时间段数量；

表示在设定历史时间内，第m个第一主题词在提取范围中出现次数的时间段均值；