[发明专利]文本匹配的方法、装置和存储介质有效

申请号：	201810185499.6	申请日：	2018-03-07
公开（公告）号：	CN110245342B	公开（公告）日：	2023-06-09
发明（设计）人：	王骏龙	申请（专利权）人：	阿里巴巴集团控股有限公司
主分类号：	G06F40/279	分类号：	G06F40/279;G06F40/30
代理公司：	北京东方亿思知识产权代理有限责任公司 11258	代理人：	贺琳
地址：	开曼群岛***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本匹配方法装置存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种文本匹配的方法、装置和存储介质。该方法包括：匹配组件分别对匹配段落文本和被匹配段落文本分词，生成至少一个匹配词和至少一个被匹配词；匹配组件将匹配词和被匹配词分别扩展为中间匹配词和中间被匹配词；基于将匹配词、被匹配词、中间匹配词、中间被匹配词，匹配组件构建文本关系图；匹配组件计算文本关系图中从源点到汇点的最短距离；匹配组件根据最短距离与距离阈值确定匹配段落文本与被匹配段落文本匹配。本发明实施例具有可以理解文本中词的含义，以及理解句子与句子之间的关系，文本匹配简单、直观，匹配结果准确等效果。

技术领域

本发明涉及文本处理技术领域，尤其涉及一种文本匹配的方法、装置和存储介质。

背景技术

随着网络技术的快速发展，网络交互的数据信息随之快速增长。在海量的文本信息中，存在大量相同或者相似的文本。人们经常需要对文本进行匹配，从而找到相同或者相似的文本。关于相似的文本可以是在文字方面相似，也可以是语义方面相似。例如，I lookafter the children和I look after the child是属于文字方面相似的2个句子。I lookafter the children和He takes care of the kids是属于语义方面相似的2个句子。

现有的文本匹配方法主要用于相同文本的匹配以及文字方面相似的文本的匹配。具体的匹配方法可以是：首先，对文本中的每句话，例如对I look after the children这句话，进行分词。然后，得到一个词的集合，如{I，look，after，the，children}。最后，分别对需要匹配的2个句子的集合的交集数量除以并集数量，得到两句话的相似度。另外，也可以用稀疏矩阵的方式计算两句话的相似度。

申请人经研究发现：现有的文本匹配的方法仅从文字表面进行匹配，并不考虑短语之间以及句子之间的关联和含义。因此，现有的文本匹配的方法仅能对相同的文本和文字方面相似的文本进行文本相似度匹配，而无法对语义方面相似的文本进行匹配。

如何对语义方面相似的文本进行匹配，成为亟待解决的技术问题。

发明内容

为了解决对语义方面相似的文本进行匹配的问题，本发明实施例提供了一种文本匹配的方法、装置和存储介质。

第一方面，提供了一种文本匹配的方法。该方法包括以下步骤：

分别对匹配段落文本和被匹配段落文本分词，生成至少一个匹配词和至少一个被匹配词；

将匹配词和被匹配词分别扩展为中间匹配词和中间被匹配词；

基于将匹配词、被匹配词、中间匹配词、中间被匹配词，构建文本关系图；

计算文本关系图中从源点到汇点的最短距离；

根据最短距离与距离阈值确定匹配段落文本与被匹配段落文本匹配。

第二方面，提供了一种文本匹配的装置。该装置包括：词语分解器、词语扩展器、关系图构建器、距离计算器和文本匹配器，

词语分解器和关系图构建器分别与词语扩展器耦合，关系图构建器和文本匹配器分别与距离计算器耦合，其中：