[发明专利]文本匹配的方法、装置和存储介质有效
| 申请号: | 201810185499.6 | 申请日: | 2018-03-07 |
| 公开(公告)号: | CN110245342B | 公开(公告)日: | 2023-06-09 |
| 发明(设计)人: | 王骏龙 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
| 主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/30 |
| 代理公司: | 北京东方亿思知识产权代理有限责任公司 11258 | 代理人: | 贺琳 |
| 地址: | 开曼群岛*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 匹配 方法 装置 存储 介质 | ||
本发明公开了一种文本匹配的方法、装置和存储介质。该方法包括:匹配组件分别对匹配段落文本和被匹配段落文本分词,生成至少一个匹配词和至少一个被匹配词;匹配组件将匹配词和被匹配词分别扩展为中间匹配词和中间被匹配词;基于将匹配词、被匹配词、中间匹配词、中间被匹配词,匹配组件构建文本关系图;匹配组件计算文本关系图中从源点到汇点的最短距离;匹配组件根据最短距离与距离阈值确定匹配段落文本与被匹配段落文本匹配。本发明实施例具有可以理解文本中词的含义,以及理解句子与句子之间的关系,文本匹配简单、直观,匹配结果准确等效果。
技术领域
本发明涉及文本处理技术领域,尤其涉及一种文本匹配的方法、装置和存储介质。
背景技术
随着网络技术的快速发展,网络交互的数据信息随之快速增长。在海量的文本信息中,存在大量相同或者相似的文本。人们经常需要对文本进行匹配,从而找到相同或者相似的文本。关于相似的文本可以是在文字方面相似,也可以是语义方面相似。例如,I lookafter the children和I look after the child是属于文字方面相似的2个句子。I lookafter the children和He takes care of the kids是属于语义方面相似的2个句子。
现有的文本匹配方法主要用于相同文本的匹配以及文字方面相似的文本的匹配。具体的匹配方法可以是:首先,对文本中的每句话,例如对I look after the children这句话,进行分词。然后,得到一个词的集合,如{I,look,after,the,children}。最后,分别对需要匹配的2个句子的集合的交集数量除以并集数量,得到两句话的相似度。另外,也可以用稀疏矩阵的方式计算两句话的相似度。
申请人经研究发现:现有的文本匹配的方法仅从文字表面进行匹配,并不考虑短语之间以及句子之间的关联和含义。因此,现有的文本匹配的方法仅能对相同的文本和文字方面相似的文本进行文本相似度匹配,而无法对语义方面相似的文本进行匹配。
如何对语义方面相似的文本进行匹配,成为亟待解决的技术问题。
发明内容
为了解决对语义方面相似的文本进行匹配的问题,本发明实施例提供了一种文本匹配的方法、装置和存储介质。
第一方面,提供了一种文本匹配的方法。该方法包括以下步骤:
分别对匹配段落文本和被匹配段落文本分词,生成至少一个匹配词和至少一个被匹配词;
将匹配词和被匹配词分别扩展为中间匹配词和中间被匹配词;
基于将匹配词、被匹配词、中间匹配词、中间被匹配词,构建文本关系图;
计算文本关系图中从源点到汇点的最短距离;
根据最短距离与距离阈值确定匹配段落文本与被匹配段落文本匹配。
第二方面,提供了一种文本匹配的装置。该装置包括:词语分解器、词语扩展器、关系图构建器、距离计算器和文本匹配器,
词语分解器和关系图构建器分别与词语扩展器耦合,关系图构建器和文本匹配器分别与距离计算器耦合,其中:
词语分解器,用于分别对匹配段落文本和被匹配段落文本分词,生成至少一个个匹配词和至少一个个被匹配词;
词语扩展器,用于将匹配词和被匹配词分别扩展为中间匹配词和中间被匹配词;
关系图构建器,用于基于将匹配词、被匹配词、中间匹配词、中间被匹配词,构建文本关系图;
距离计算器,用于计算文本关系图中的最短距离;
文本匹配器,用于根据最短距离与距离阈值确定匹配段落文本与被匹配段落文本匹配。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810185499.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:标识码批量生成方法及装置
- 下一篇:弹幕分析方法及装置





