[发明专利]文章聚合方法和装置、介质和计算设备有效
申请号: | 201910787934.7 | 申请日: | 2019-08-23 |
公开(公告)号: | CN110489558B | 公开(公告)日: | 2022-03-18 |
发明(设计)人: | 林靖豪;陈起进;任文静;潘照明 | 申请(专利权)人: | 网易传媒科技(北京)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/194 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 周天宇 |
地址: | 100084 北京市海淀区西北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文章 聚合 方法 装置 介质 计算 设备 | ||
1.一种由计算设备执行的文章聚合方法,包括:
接收多个文章,并提取所述多个文章各自包含的特征词;
基于所述特征词得到多个文章集合,其中,每个所述文章集合包含一个或多个所述文章;
对所述文章集合进行第一次聚类,得到多个一级聚簇;
对每个所述一级聚簇内包含的文章进行第二次聚类,得到每个所述一级聚簇包含的二级聚簇;以及
将所述一级聚簇和所述二级聚簇作为所述文章的聚合结果,输出所述聚合结果;
其中,所述基于所述特征词得到多个文章集合包括:
基于所述特征词得到每个文章包含的多个特征组合,每个所述特征组合包含预定数量的特征词;
基于所述多个特征组合得到多个文章集合,其中,将包含同一特征组合的一个或多个文章进行组合形成一个文章集合。
2.根据权利要求1所述的方法,其中,所述对所述文章集合进行第一次聚类,得到多个一级聚簇包括:
确定每个文章集合与其余各个文章集合之间的共有文章的数量;
将所述文章集合作为节点,基于所述共有文章的数量确定节点间的边的权值;以及
基于所述节点和所述边的权值得到多个一级聚簇。
3.根据权利要求2所述的方法,其中:
所述基于所述特征词得到多个文章集合还包括:
确定每个所述特征组合的置信度和重要度;
其中,确定所述特征组合的置信度包括:确定所述特征组合中的多个特征词之间的相似度,基于所述特征词之间的相似度确定所述特征组合的置信度;
其中,确定所述特征组合的重要度包括:确定所述多个文章中包含所述特征组合中的各个特征词的文章的数量,基于所述各个特征词对应的文章的数量确定所述特征组合的重要度;
所述对所述文章集合进行第一次聚类,得到多个一级聚簇还包括:
判断所述文章集合中的文章中是否包含特定名称词,基于所述判断结果确定语义惩罚系数;以及
基于所述置信度、重要度和所述语义惩罚系数对所述边的权值进行修正。
4.根据权利要求1所述的方法,其中:
所述文章聚合方法还包括:对所述多个一级聚簇进行调整,得到多个调整后的一级聚簇,其中,所述对所述多个一级聚簇进行调整包括将所述多个一级聚簇进行合并和/或拆分;
所述对每个所述一级聚簇内包含的文章进行第二次聚类包括:对所述多个调整后的一级聚簇内包含的文章进行第二次聚类。
5.根据权利要求4所述的方法,其中:
所述特征词包括关键词;
所述将所述多个一级聚簇进行合并包括:
基于每个一级聚簇包含的文章的关键词,得到每个一级聚簇的关键词集合;
确定每个一级聚簇包含的文章的语义向量,并基于所述文章的语义向量确定每个一级聚簇的语义向量;
基于所述关键词集合和所述语义向量,确定需要合并的一级聚簇;
所述将所述多个一级聚簇进行拆分包括:
确定满足预设拆分条件的一级聚簇,其中,所述预设拆分条件包括以下条件中的至少一种:所述一级聚簇包含的文章的数量超过预定数量;所述一级聚簇包含的文章之间的不重叠关键词的数量与所述一级聚簇包含的关键词的总数量的比值大于预定比值;
对每个满足预设拆分条件的一级聚簇进行拆分。
6.根据权利要求1所述的方法,其中:所述对每个所述一级聚簇内包含的文章进行第二次聚类,得到每个所述一级聚簇包含的二级聚簇包括对于每个所述一级聚簇执行以下操作:
确定所述一级聚簇内包含的每个文章与其余各个文章之间的语义相似度;
将所述文章作为节点,基于所述语义相似度确定节点间的边的权值;
基于所述节点以及所述边的权值得到所述一级聚簇包含的二级聚簇。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易传媒科技(北京)有限公司,未经网易传媒科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910787934.7/1.html,转载请声明来源钻瓜专利网。