[发明专利]文本匹配方法、装置、计算设备及系统有效

申请号：	201711174221.0	申请日：	2017-11-22
公开（公告）号：	CN109815475B	公开（公告）日：	2023-03-21
发明（设计）人：	王林林;李凤麟;陈海青	申请（专利权）人：	阿里巴巴集团控股有限公司
主分类号：	G06F16/31	分类号：	G06F16/31;G06F40/289;G06F40/30;G06F16/35;G06F18/22
代理公司：	北京太合九思知识产权代理有限公司 11610	代理人：	刘戈
地址：	英属开曼群岛大开***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本匹配方法装置计算设备系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例提供了一种文本匹配方法、装置、计算设备及系统，其中，所述方法包括：计算文本集合对应的至少一个签名索引项；确定所述至少一个签名索引项分别相对各自索引的不同文本的重要程度；基于所述重要程度，筛选每个文本的候选文本；计算每个文本与其候选文本的相似度，以获得每个文本的相似文本。本申请实施例提供的技术方案降低了计算量，提高文本匹配效率。

技术领域

本申请实施例涉及自然语言处理技术领域，尤其涉及一种文本匹配方法、装置、计算设备及系统。

背景技术

在信息检索、人机对话、高频问题发现以及舆情监控等应用中，存在从海量文本中查找与每个文本匹配的TOP-K相似文本的需求，从而基于每个文本的相似文本可以进行文本聚类，以将相似的文本聚类在一起，实现批量处理操作等。其中，TOP-K相似文本是指基于相似度，确定的与某个文本最相似的K个文本。

由上述描述可知，为了查找与每个文本匹配的相似文本，需要在海量文本中遍历计算每个文本与其它各个文本的相似度，文本集合中的任意两个文本均需要计算相似度，计算量非常大，影响匹配效率。

发明内容

本申请实施例提供一种文本匹配方法、装置、计算设备及系统，用以解决现有技术中由于文本相似度计算量大，导致文本匹配效率低的技术问题。

第一方面，本申请实施例中提供了一种文本匹配方法，包括：

计算文本集合对应的至少一个签名索引项；

确定所述至少一个签名索引项分别相对各自索引的不同文本的重要程度；

基于所述重要程度，筛选每个文本的候选文本；

计算每个文本与其候选文本的相似度，以获得每个文本的相似文本。