[发明专利]文本主题挖掘方法、装置、电子设备及存储介质有效

专利信息
申请号: 202110737634.5 申请日: 2021-06-30
公开(公告)号: CN113407679B 公开(公告)日: 2023-10-03
发明(设计)人: 简仁贤;任钊立 申请(专利权)人: 竹间智能科技(上海)有限公司
主分类号: G06F16/33 分类号: G06F16/33;G06F16/35;G06F40/211;G06F40/216;G06F40/284;G06F40/289;G06F40/30;G06F18/23213
代理公司: 北京超凡宏宇知识产权代理有限公司 11463 代理人: 钟扬飞
地址: 200030 上海市徐*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 主题 挖掘 方法 装置 电子设备 存储 介质
【权利要求书】:

1.一种文本主题挖掘方法,其特征在于,包括:

获取多个文本数据;

对每个所述文本数据进行语义分析,获得句向量;

汇总所述句向量,获得句向量集合;

根据所述句向量集合对所述多个文本数据进行聚类分析,获得聚类结果;当聚类结果中的簇集合满足聚类结束条件时,将所述簇集合的主题结果作为所述多个文本数据的文本主题;

其中,所述聚类结果包括多个簇集合,每一所述簇集合包括多个句向量。

2.根据权利要求1所述的方法,其特征在于,所述对所述多个文本数据进行语义分析,获得句向量,包括:

对每一所述文本数据进行分词处理,获得每一所述文本数据对应的词语;

从预先存储的稠密词向量中查询所述词语的词向量;

采用光滑逆频率法SIF的编码方式对每一所述文本数据对应的词向量进行编码,获得所述句向量。

3.根据权利要求1所述的方法,其特征在于,所述根据所述句向量集合对所述多个文本数据进行聚类分析,获得聚类结果,当聚类结果中的簇集合满足聚类结束条件时,将所述簇集合的主题结果作为所述多个文本数据的文本主题,包括:

聚类分析步骤:根据当前的中间句向量集合对所述多个文本数据进行一次聚类分析,获得中间聚类结果;其中,所述中间句向量集合的初始值为所述句向量集合;

主题分析步骤:对所述中间聚类结果中每一簇集合进行主题分析,获得每一簇集合的子主题结果,所述子主题结果包括主题词;当所述簇集合中主题词的数量大于第一预设阈值时,将所述簇集合作为目标簇集合;

若满足所述聚类结束条件,则将获得的所述目标簇集合的子主题结果的集合作为所述文本主题;

若未满足所述聚类结束条件,则将所述目标簇集合中的句向量从所述句向量集合中删除,形成更新的所述中间句向量集合,并重复所述聚类分析步骤以及所述主题分析步骤。

4.根据权利要求3所述的方法,其特征在于,所述对所述中间聚类结果中每一簇集合进行主题分析,获得每一簇集合的主题词,包括:

获取所述簇集合中每一句向量到簇中心的距离,并根据所述距离筛选出目标句向量;

获取所述目标句向量对应的子文本数据,对所述子文本数据对应的目标词语进行词性标注,获得每个所述目标词语的词性;

根据词性、预先存储的业务词表和逆文件频率词表对所述目标词语进行过滤,获得多个关键词;

获取每个所述关键词的词频信息,根据所述词频信息确定所述主题词。

5.根据权利要求3所述的方法,其特征在于,所述子主题结果还包括中心句,在获得目标簇集合之后,所述方法还包括:

获取所述目标簇集合中距离簇中心最近的句向量,将所述距离簇中心最近的句向量对应的文本数据作为所述目标簇集合的中心句。

6.根据权利要求4所述的方法,其特征在于,所述根据词性、预先存储的业务词表和逆文件频率词表对所述目标词语进行过滤,获得多个关键词,包括:

若所述子文本数据对应的一目标词语满足如下关键词判定条件,则将所述目标词语确定为所述关键词;所述关键词判定条件包括:

所述业务词表中包括所述目标词语;

所述目标词语的词性为预设词性中的一种;

所述目标词语在逆文件频率词表中的值大于预设阈值。

7.根据权利要求3所述的方法,其特征在于,所述聚类结束条件包括如下至少一种:

迭代次数大于第二预设阈值;

所述句向量集合中的句向量数量小于第三预设阈值;

每个簇集合对应的主题词数量均小于第一预设阈值。

8.根据权利要求1-7任一项所述的方法,其特征在于,所述根据所述句向量集合对所述多个文本数据进行聚类分析,包括:

根据所述句向量集合,利用K-Means++聚类算法或K-Means聚类算法对所述多个文本数据进行聚类分析。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于竹间智能科技(上海)有限公司,未经竹间智能科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110737634.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top