[发明专利]一种文本聚合方法及系统有效

申请号：	201910079927.1	申请日：	2019-01-28
公开（公告）号：	CN109815336B	公开（公告）日：	2021-07-09
发明（设计）人：	夏静;姬成龙;吴东野;冯大辉	申请（专利权）人：	无码科技（杭州）有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/34;G06F16/36
代理公司：	杭州裕阳联合专利代理有限公司 33289	代理人：	姚宇吉
地址：	311200 浙江省杭州市萧山区***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本聚合方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种文本聚合方法及系统，用于对长文本和短文本进行聚合，所述方法包括步骤：对长文本进行聚类，获得长文本对应的话题，所述长文本中包含有标题；建立分类模型，并获取长文本的摘要以及实体集合；利用所述话题、标题、摘要以及实体集合，建立第一映射集和第二映射集；利用所述第一映射集和第二映射集训练所述分类模型，得到训练后的分类模型；获取待测长文本的摘要，利用所述待测长文本的摘要和待测短文本建立第三映射集，利用所述第三映射集和所述训练后的分类模型，获得文本聚合结果；所述方法及系统利用长文本和短文本的实体特征，筛选出与长文本包含相同实体的短文本，降低了计算复杂度，保证了文本聚合效率。

技术领域

本发明涉及文本聚类技术领域，更具体地，涉及一种文本聚合方法及系统。

背景技术

实际生活中的资讯来源非常多元，包括专业的媒体网站、自媒体平台以及社交媒体等，将语义相关的多篇资讯和短评整合在一起成为了一种发展趋势。比如在展示搜索结果以及呈现新闻信息等场景中，大多是以主题而不是单篇文本的形式进行展示，这样可以实现整合多个新闻源，减少信息冗余，从而给用户提供更加丰富的信息。

在整合资讯和短评的过程中，即整合长文本和短文本的过程中，一般需要使用聚类算法。聚类算法可以聚合生成新闻中蕴含的主题，聚类算法通常只运用在长文本中，而在短文本上使用时效果通常不太理想，因为长本文词汇相对较多，可以提供一个稳定丰富的长文本特征表达；而短文本词汇较少，上下文信息缺失，难以形成有价值的聚类。对于短文本整合，通用的方法是使用分类算法，但分类算法需要人工预设主题类型，但由于自然语言数据的多维度性，所以很容易出现短文本内容和预设类型不完全匹配的问题。于是，如何设计一种对长文本和短文本实现有效聚合的方法，是目前面临的一个主要问题。

发明内容

本发明的目的在于提供一种文本聚合方法及系统，用于对长文本和短文本进行聚合，解决现有的文本聚合方法存在的上述问题。

为实现上述目的，本发明提供了一种文本聚合方法，用于对长文本和短文本进行聚合，包括以下步骤：

对长文本进行聚类，获得长文本对应的话题，所述长文本中包含有标题；

建立分类模型，并获取长文本摘要，以及所述长文本摘要对应的实体集合；

利用所述话题、标题、长文本摘要以及实体集合，建立第一映射集和第二映射集；

利用所述第一映射集和第二映射集训练所述分类模型，得到训练后的分类模型；

获取待测长文本摘要，利用所述待测长文本摘要和待测短文本建立第三映射集，利用所述第三映射集和所述训练后的分类模型，获得文本聚合结果。

优选地，所述文本聚合方法利用Single-Pass算法对长文本进行聚类，获得长文本对应的话题。

优选地，所述文本聚合方法利用TextTeaser算法对长文本生成长文本摘要，以及利用命名实体识别算法获取长文本摘要对应的实体集合。

优选地，利用所述话题、标题、长文本摘要以及实体集合，建立第一映射集和第二映射集，具体为：

将属于相同话题的长文本摘要和标题，随机一一匹配后组合得到第一映射集；