[发明专利]文本聚簇的方法、装置、设备及存储介质在审

申请号：	202110078107.8	申请日：	2021-01-20
公开（公告）号：	CN112784046A	公开（公告）日：	2021-05-11
发明（设计）人：	李传勇;张玉东;施鹏	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/211;G06F40/30;G06K9/62
代理公司：	北京市铸成律师事务所 11313	代理人：	王一;包莉莉
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开提供了文本聚簇的方法、装置、设备及存储介质，涉及大数据、自然语言处理领域。具体实现方案为：获取查询文本；对任意两个查询文本进行特征提取；基于多特征融合的文本相似度运算，得到相似度值，相似度值用于表征两个查询文本的文本相似度；根据相似度值对两个查询文本进行聚簇处理，得到文本簇。根据本公开的技术方案，可以提升文本聚簇的精准度，并且可以降低因语义重复的需求导致文本信息批量重复产出的概率，有利于提升文本信息的产出效率并扩大文本信息类别的覆盖面。

技术领域

本公开涉及人工智能技术领域，尤其涉及大数据、自然语言处理领域。

背景技术

在文本信息涉及知识平台业务应用的相关技术中，通过挖掘用户在搜索中的需求并对需求进行分析，针对满足不好的需求，内容提供产出者需要定向产出相应的文本信息。由于挖掘到的知识类需求中包含大量的重复语义，容易导致文本信息重复产出从而浪费人力物力成本。

发明内容

本公开提供了一种用于文本聚簇的方法、装置、设备以及存储介质。

根据本公开的一方面，提供了一种文本聚簇的方法，包括：

获取查询文本；

对任意两个查询文本进行特征提取；

基于多特征融合的文本相似度运算，得到相似度值，所述相似度值用于表征两个所述查询文本的文本相似度；

根据相似度值对两个查询文本进行聚簇处理，得到文本簇。

根据本公开的另一方面，提供了一种文本聚簇的装置，包括：