[发明专利]一种主题聚类的方法及装置在审

专利信息
申请号: 201911103997.2 申请日: 2019-11-13
公开(公告)号: CN110851602A 公开(公告)日: 2020-02-28
发明(设计)人: 李立 申请(专利权)人: 精硕科技(北京)股份有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F16/953;G06K9/62
代理公司: 北京超成律师事务所 11646 代理人: 孔默
地址: 100000 北京市石景山*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 主题 方法 装置
【说明书】:

本申请提供了一种主题聚类的方法及装置,其中,该方法包括:对待聚类文档进行主题聚类,得到至少一个主题以及每个所述主题下的至少一个聚类词汇;针对每个主题,基于该主题下的各个聚类词汇,以及预设的与该主题对应的主题词汇,确定各个聚类词汇分别与该主题对应的主题词汇的相似度;基于各个聚类词汇分别与该主题对应的主题词汇的相似度,从各个聚类词汇中确定目标词汇,并将所述目标词汇确定为该主题下的主题聚类结果。与现有技术中的主题聚类的技术方法相比,该主题聚类的方法是在现有技术中的主题聚类模型基础上的进一步优化,能够对具有干扰性的信息进行排除,更加准确地对文本型信息进行主题聚类。

技术领域

本申请涉及信息领域,尤其是涉及一种主题聚类的方法及装置。

背景技术

随着互联网的快速发展,网络上的信息量与日俱增,用户对于信息的获取要求也越来越高。由于网络上大多为文本型信息,因此对文本型信息进行精准地检索逐渐成为研究的热点话题。

在现有技术中,以基于统计机器学习的主题聚类方法应用最为广泛,其中一种常见模型就是隐含狄利克雷分配(Latent Dirichlet Allocation,LDA)模型。LDA模型是一种主题模型,可以用来识别大规模文档集或语料库中潜藏的主题信息,得到文档-主题概率分布以及主题-词概率分布,在文本挖掘领域包括文本主题识别、文本分类以及文本相似度计算方面都有广泛地应用。

申请人在研究中发现,通过现有技术中的统计机器学习的主题聚类方法处理的信息往往存在一些信息不符合预期需求,造成主题聚类结果达不到预期的精准度。

发明内容

本申请实施例至少提供一种主题聚类的方法及装置,进一步优化了主题聚类方法,以提高对于文本型信息进行主题聚类之后结果的精准性。

第一方面,本申请实施例提供了一种主题聚类的方法,包括:

对待聚类文档进行主题聚类,得到至少一个主题以及每个所述主题下的至少一个聚类词汇;

针对每个主题,基于该主题下的各个聚类词汇,以及预设的与该主题对应的主题词汇,确定各个聚类词汇分别与该主题对应的主题词汇的相似度;

基于各个聚类词汇分别与该主题对应的主题词汇的相似度,从各个聚类词汇中确定目标词汇,并将所述目标词汇确定为该主题下的主题聚类结果。

一种可选实施方式中,所述对待聚类文档进行主题聚类,得到至少一个主题以及每个所述主题下的至少一个聚类词汇,包括:

基于待聚类文档的数量和大小,获取主题聚类的迭代次数、主题个数以及各个主题下的词汇数量;

基于所述迭代次数、所述主题个数、以及所述各个主题下的词汇数量,对所述待聚类文档进行主题聚类;

所述主题个数与所述待聚类文档的数量和大小均成正相关性。

一种可选实施方式中,所述基于该主题下的各个聚类词汇,以及预设的与该主题对应的主题词汇,确定各个聚类词汇分别与该主题对应的主题词汇的相似度,包括:

针对该主题下的各个聚类词汇,确定该聚类词汇分别与该主题对应的各个主题词汇的距离,将该聚类词汇分别与该主题对应的各个主题词汇的距离,确定为该聚类词汇分别与该主题对应的各个主题词汇的相似度。

一种可选实施方式中,所述基于各个聚类词汇分别与该主题对应的主题词汇的相似度,从各个聚类词汇中确定目标词汇,包括:

针对每个聚类词汇,将该聚类词汇分别与该主题对应的各个主题词汇的相似度,分别与预设的相似度阈值进行比对;

若该聚类词汇与任一主题词汇对应的相似度大于所述相似度阈值,且与该聚类词汇相似度大于所述相似度阈值的主题词汇数量满足预设条件,则将该聚类词汇确定为目标词汇。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于精硕科技(北京)股份有限公司,未经精硕科技(北京)股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911103997.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top