[发明专利]文本匹配方法、装置、计算设备及系统有效
| 申请号: | 201711174221.0 | 申请日: | 2017-11-22 |
| 公开(公告)号: | CN109815475B | 公开(公告)日: | 2023-03-21 |
| 发明(设计)人: | 王林林;李凤麟;陈海青 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
| 主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F40/289;G06F40/30;G06F16/35;G06F18/22 |
| 代理公司: | 北京太合九思知识产权代理有限公司 11610 | 代理人: | 刘戈 |
| 地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 匹配 方法 装置 计算 设备 系统 | ||
本申请实施例提供了一种文本匹配方法、装置、计算设备及系统,其中,所述方法包括:计算文本集合对应的至少一个签名索引项;确定所述至少一个签名索引项分别相对各自索引的不同文本的重要程度;基于所述重要程度,筛选每个文本的候选文本;计算每个文本与其候选文本的相似度,以获得每个文本的相似文本。本申请实施例提供的技术方案降低了计算量,提高文本匹配效率。
技术领域
本申请实施例涉及自然语言处理技术领域,尤其涉及一种文本匹配方法、装置、计算设备及系统。
背景技术
在信息检索、人机对话、高频问题发现以及舆情监控等应用中,存在从海量文本中查找与每个文本匹配的TOP-K相似文本的需求,从而基于每个文本的相似文本可以进行文本聚类,以将相似的文本聚类在一起,实现批量处理操作等。其中,TOP-K相似文本是指基于相似度,确定的与某个文本最相似的K个文本。
由上述描述可知,为了查找与每个文本匹配的相似文本,需要在海量文本中遍历计算每个文本与其它各个文本的相似度,文本集合中的任意两个文本均需要计算相似度,计算量非常大,影响匹配效率。
发明内容
本申请实施例提供一种文本匹配方法、装置、计算设备及系统,用以解决现有技术中由于文本相似度计算量大,导致文本匹配效率低的技术问题。
第一方面,本申请实施例中提供了一种文本匹配方法,包括:
计算文本集合对应的至少一个签名索引项;
确定所述至少一个签名索引项分别相对各自索引的不同文本的重要程度;
基于所述重要程度,筛选每个文本的候选文本;
计算每个文本与其候选文本的相似度,以获得每个文本的相似文本。
第二方面,本申请实施例中提供了一种文本匹配装置,包括:
第一计算模块,用于计算文本集合对应的至少一个签名索引项;
第二计算模块,用于确定所述至少一个签名索引项分别相对各自索引的不同文本的重要程度;
筛选模块,用于基于所述重要程度,筛选每个文本的候选文本;
文本匹配模块,用于计算每个文本与其候选文本的相似度,以获得每个文本的相似文本。
第三方面,本申请实施例中提供了一种计算设备,包括一个或多个存储器以及一个或多个处理器;
所述一个或多个存储器存储一条或多条计算机指令;所述一条或多条计算机指令由所述一个或多个处理器调用并执行;
所述一个或多个处理器用于:
计算文本集合对应的至少一个签名索引项;
确定所述至少一个签名索引项分别相对各自索引的不同文本的重要程度;
基于所述重要程度,筛选每个文本的候选文本;
计算每个文本与其候选文本的相似度,以获得每个文本的相似文本。
第四方面,本申请实施例中提供了一种集群系统,包括多个物理机器;每一个物理机器包括一个或多个存储器以及一个或多个处理器;所述一个或多个存储器存储一条多条计算机指令;所述一条或多条计算机指令由所述一个或多个处理器调用并执行;
所述多个物理机器采用映射归纳Map Reduce方式执行如下操作:
计算文本集合对应的至少一个签名索引项;
确定所述至少一个签名索引项分别相对各自索引的不同文本的重要程度;
基于所述重要程度,筛选每个文本的候选文本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711174221.0/2.html,转载请声明来源钻瓜专利网。





