[发明专利]长文本语义相似度匹配方法、装置、电子设备及存储介质在审

申请号：	202011042061.6	申请日：	2020-09-28
公开（公告）号：	CN112183111A	公开（公告）日：	2021-01-05
发明（设计）人：	徐晨兴;张雷	申请（专利权）人：	亚信科技（中国）有限公司
主分类号：	G06F40/30	分类号：	G06F40/30;G06F40/194;G06F40/211;G06F40/284;G06F40/295
代理公司：	北京市立方律师事务所 11330	代理人：	张筱宁
地址：	100193 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本语义相似匹配方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例提供了一种长文本语义相似度匹配方法、装置、电子设备及存储介质。方法包括：分别对长文本和基准文本进行预处理，以得到长文本的多个句子分别对应的多个第一词向量和基准文本的一个句子对应的多个第二词向量；分别对多个第一词向量和多个第二词向量进行池化处理，以得到长文本的多个句子分别对应的多个第一语义向量，以及第二文本的一个句子对应的一个第二语义向量；将多个第一语义向量输入预设的实体识别模型，以确定长文本包括的段落的段落类型；根据段落类型确定每个段落中的第一语义向量对应的权重；基于第一语义向量、第一语义向量对应的权重以及第二语义向量，计算得到长文本相对基准文本的相似度。

技术领域

本申请涉及自然语言处理技术领域，具体而言，本申请涉及一种长文本语义相似度匹配方法、装置、电子设备及存储介质。

背景技术

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。在自然语言处理时，有时需要对不同的文本之间进行语义的相似度匹配。

现有的语义匹配，是短文本和短文本之间的语义匹配，现有的方案并没有一种能实现长文本和短文本之间进行语义匹配的方案。

发明内容

本申请的目的旨在至少能解决上述的技术缺陷之一，特提出以下技术方案：

第一方面，提供了一种长文本语义相似度匹配的方法，该方法包括：

分别对长文本和基准文本进行预处理，以得到长文本的多个句子分别对应的多个第一词向量和基准文本的一个句子对应的多个第二词向量，所述长文本包括多个句子，所述基准文本包括一个句子；

分别对所述多个第一词向量和所述多个第二词向量进行池化处理，以得到所述长文本的多个句子分别对应的多个第一语义向量，以及所述第二文本的一个句子对应的一个第二语义向量；

将所述多个第一语义向量输入预设的实体识别模型，以确定所述长文本包括的段落的段落类型；

根据所述段落类型确定每个段落中的第一语义向量对应的权重；

基于所述第一语义向量、所述第一语义向量对应的权重以及第二语义向量，计算得到所述长文本相对所述基准文本的相似度。

第二方面，提供了一种长文本语义相似度匹配的装置，该装置包括：

预处理模块，用于分别对长文本和基准文本进行预处理，以得到长文本的多个句子分别对应的多个第一词向量和基准文本的一个句子对应的多个第二词向量；

池化模块，用于分别对所述多个第一词向量和所述多个第二词向量进行池化处理，以得到所述长文本的多个句子分别对应的多个第一语义向量，以及所述第二文本的一个句子对应的一个第二语义向量；