[发明专利]一种主题聚类的方法及装置在审
申请号: | 201911103997.2 | 申请日: | 2019-11-13 |
公开(公告)号: | CN110851602A | 公开(公告)日: | 2020-02-28 |
发明(设计)人: | 李立 | 申请(专利权)人: | 精硕科技(北京)股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/953;G06K9/62 |
代理公司: | 北京超成律师事务所 11646 | 代理人: | 孔默 |
地址: | 100000 北京市石景山*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 主题 方法 装置 | ||
1.一种主题聚类的方法,其特征在于,包括:
对待聚类文档进行主题聚类,得到至少一个主题以及每个所述主题下的至少一个聚类词汇;
针对每个主题,基于该主题下的各个聚类词汇,以及预设的与该主题对应的主题词汇,确定各个聚类词汇分别与该主题对应的主题词汇的相似度;
基于各个聚类词汇分别与该主题对应的主题词汇的相似度,从各个聚类词汇中确定目标词汇,并将所述目标词汇确定为该主题下的主题聚类结果。
2.根据权利要求1所述的主题聚类的方法,其特征在于,所述对待聚类文档进行主题聚类,得到至少一个主题以及每个所述主题下的至少一个聚类词汇,包括:
基于待聚类文档的数量和大小,获取主题聚类的迭代次数、主题个数以及各个主题下的词汇数量;
基于所述迭代次数、所述主题个数、以及所述各个主题下的词汇数量,对所述待聚类文档进行主题聚类;
所述主题个数与所述待聚类文档的数量和大小均成正相关性。
3.根据权利要求1所述的主题聚类的方法,其特征在于,所述基于该主题下的各个聚类词汇,以及预设的与该主题对应的主题词汇,确定各个聚类词汇分别与该主题对应的主题词汇的相似度,包括:
针对该主题下的各个聚类词汇,确定该聚类词汇分别与该主题对应的各个主题词汇的距离,将该聚类词汇分别与该主题对应的各个主题词汇的距离,确定为该聚类词汇分别与该主题对应的各个主题词汇的相似度。
4.根据权利要求1所述的主题聚类的方法,其特征在于,所述基于各个聚类词汇分别与该主题对应的主题词汇的相似度,从各个聚类词汇中确定目标词汇,包括:
针对每个聚类词汇,将该聚类词汇分别与该主题对应的各个主题词汇的相似度,分别与预设的相似度阈值进行比对;
若该聚类词汇与任一主题词汇对应的相似度大于所述相似度阈值,且与该聚类词汇相似度大于所述相似度阈值的主题词汇数量满足预设条件,则将该聚类词汇确定为目标词汇。
5.一种主题聚类的装置,其特征在于,包括:
主题聚类模块,用于对待聚类文档进行主题聚类,得到至少一个主题以及每个所述主题下的至少一个聚类词汇;
计算模块,用于针对每个主题,基于该主题下的各个聚类词汇,以及预设的与该主题对应的主题词汇,确定各个聚类词汇分别与该主题对应的主题词汇的相似度;
确定模块,用于基于各个聚类词汇分别与该主题对应的主题词汇的相似度,从各个聚类词汇中确定目标词汇,并将所述目标词汇确定为该主题下的主题聚类结果。
6.根据权利要求5所述的主题聚类的装置,其特征在于,所述主题聚类模块,在对待聚类文档进行主题聚类,得到至少一个主题以及每个所述主题下的至少一个聚类词汇时,具体用于:
基于待聚类文档的数量和大小,获取主题聚类的迭代次数、主题个数以及各个主题下的词汇数量;
基于所述迭代次数、所述主题个数、以及所述各个主题下的词汇数量,对所述待聚类文档进行主题聚类;
所述主题个数与所述待聚类文档的数量和大小均成正相关性。
7.根据权利要求5所述的主题聚类的装置,其特征在于,所述计算模块,在基于该主题下的各个聚类词汇,以及预设的与该主题对应的主题词汇,确定各个聚类词汇分别与该主题对应的主题词汇的相似度时,具体用于:
针对该主题下的各个聚类词汇,确定该聚类词汇分别与该主题对应的各个主题词汇的距离,将该聚类词汇分别与该主题对应的各个主题词汇的距离,确定为该聚类词汇分别与该主题对应的各个主题词汇的相似度。
8.根据权利要求5所述的主题聚类的装置,其特征在于,所述确定模块,在基于各个聚类词汇分别与该主题对应的主题词汇的相似度,从各个聚类词汇中确定目标词汇时,具体用于:
针对每个聚类词汇,将该聚类词汇分别与该主题对应的各个主题词汇的相似度,分别与预设的相似度阈值进行比对;
若该聚类词汇与任一主题词汇对应的相似度大于所述相似度阈值,且与该聚类词汇相似度大于所述相似度阈值的主题词汇数量满足预设条件,则将该聚类词汇确定为目标词汇。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于精硕科技(北京)股份有限公司,未经精硕科技(北京)股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911103997.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种提升醋酸酯气化率的再沸器
- 下一篇:一种自适应圆管状薄壁件夹爪