[发明专利]一种电力文档主题提取方法及设备在审
| 申请号: | 202011247379.8 | 申请日: | 2020-11-10 |
| 公开(公告)号: | CN112380342A | 公开(公告)日: | 2021-02-19 |
| 发明(设计)人: | 宋立华;梁懿;苏江文;王秋琳 | 申请(专利权)人: | 福建亿榕信息技术有限公司;国网信息通信产业集团有限公司;国网信通亿力科技有限责任公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/242;G06F40/289 |
| 代理公司: | 福州科扬专利事务所 35001 | 代理人: | 李晓芬 |
| 地址: | 350000 福建省福*** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 电力 文档 主题 提取 方法 设备 | ||
本发明涉及一种电力文档主题提取方法及设备,包括以下步骤:S1、获取包括多个文档的数据集;S2、筛除重复数据;S3、筛选出电网相关的文档;S4、对数据集进行分类;S5、提取文档主题。
技术领域
本发明涉及一种电力文档主题提取方法及设备,属于文档主题提取领域。
背景技术
文档主题提取分为抽取式和生成式。抽取式主题方法是对原文中的句子进行评估打分,选出最能代表原文主旨的若干句子作为全文主题。生成式主题方法是利用机器学习等技术,使计算机对非原文的句子重新组合,生成原文主题。
公开号为CN110399606A的发明专利《一种无监督电力文档主题生成方法及系统》利用相关性分析方法,筛选与特定领域相关的文档数据,再利用聚类方法找到同类别的文档,然后对其进行主题提取,并将此应用在主题提取系统中,使得提取特定领域的主题更具可行性。但该专利未考虑到电力文档数据体量大、价值密度低、重复度高的特点,其结果中会出现大量重复的内容,不能体现舆论中多样性的观点。
发明内容
为了解决上述现有技术中存在的问题,本发明提供一种电力文档主题提取方法及设备,通过判断文档之间的相似性及hash map算法快速筛除数据集中的相似文档,避免最终得到大量重复内容,也减少后续步骤的计算量,显著提升提取文本主题的效率和效果。
本发明的技术方案如下:
技术方案一:
一种电力文档主题提取方法及设备,包括以下步骤:
S1、获取数据集,所述数据集包括多个文档;
S2、筛除重复数据:对多个文档进行分词,得到与文档一一对应的多个第一词列表;计算词列表中每个词的哈希值和tfidf值;根据所述哈希值和tfidf值,分别计算每个文档的SimHash签名;根据所述SimHash签名,计算文档两两之间的汉明距;根据所述汉明距判断文档是否相似;删去相似的文档;
S3、筛选出电网相关的文档:根据所述tfidf值和第一词列表中的词是否属于电力领域,计算文档对电力领域的匹配值;删去匹配值低于阈值的文档;
S4、对数据集进行分类:根据所述tfidf值,生成tfidf向量;根据所述tfidf向量对剩余的文档进行聚类分析,得到不同类别的文档;
S5、提取文档主题:对得到的不同类别的文档进行分句;对切分得到的句子进行分词,得到与句子一一对应的第二词列表;对句子进行向量化;根据句子向量,计算句子之间的相似性;将句子作为节点、句子之间的相似性作为权重,构建带权无向图;对该无向图的节点按相似度进行排序,将相似度最高的a个句子输出为文档的主题。
进一步的,在步骤S2中,通过hashmap算法快速计算两个文档之间的汉明距。
进一步的,在步骤S3中,计算文档对电力领域的匹配值的具体步骤为:
对第一词列表中的词按照tfidf值从大到小进行排序;对于排名在前k位的词,根据公式计算文档对电力领域的匹配值;其中,i表示排名为第i位的词;tfidf[i]表示排名第i位的词的tfidf值;当第i个词属于电力领域时,H=1;当第i个词的哈希值不属于电力领域时,H=0。
进一步的,还包括对所述匹配值进行平衡计算,由公式表达为:n为第一词列表中词的总数。
进一步的,在步骤S4中,通过Dbscan算法或Kmeans算法对文档进行聚类分析。
进一步的,在步骤S5中,句子向量化的具体步骤为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建亿榕信息技术有限公司;国网信息通信产业集团有限公司;国网信通亿力科技有限责任公司,未经福建亿榕信息技术有限公司;国网信息通信产业集团有限公司;国网信通亿力科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011247379.8/2.html,转载请声明来源钻瓜专利网。





