[发明专利]长文本语义相似度匹配方法、装置、电子设备及存储介质在审
申请号: | 202011042061.6 | 申请日: | 2020-09-28 |
公开(公告)号: | CN112183111A | 公开(公告)日: | 2021-01-05 |
发明(设计)人: | 徐晨兴;张雷 | 申请(专利权)人: | 亚信科技(中国)有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/194;G06F40/211;G06F40/284;G06F40/295 |
代理公司: | 北京市立方律师事务所 11330 | 代理人: | 张筱宁 |
地址: | 100193 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 语义 相似 匹配 方法 装置 电子设备 存储 介质 | ||
本申请实施例提供了一种长文本语义相似度匹配方法、装置、电子设备及存储介质。方法包括:分别对长文本和基准文本进行预处理,以得到长文本的多个句子分别对应的多个第一词向量和基准文本的一个句子对应的多个第二词向量;分别对多个第一词向量和多个第二词向量进行池化处理,以得到长文本的多个句子分别对应的多个第一语义向量,以及第二文本的一个句子对应的一个第二语义向量;将多个第一语义向量输入预设的实体识别模型,以确定长文本包括的段落的段落类型;根据段落类型确定每个段落中的第一语义向量对应的权重;基于第一语义向量、第一语义向量对应的权重以及第二语义向量,计算得到长文本相对基准文本的相似度。
技术领域
本申请涉及自然语言处理技术领域,具体而言,本申请涉及一种长文本语义相似度匹配方法、装置、电子设备及存储介质。
背景技术
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。在自然语言处理时,有时需要对不同的文本之间进行语义的相似度匹配。
现有的语义匹配,是短文本和短文本之间的语义匹配,现有的方案并没有一种能实现长文本和短文本之间进行语义匹配的方案。
发明内容
本申请的目的旨在至少能解决上述的技术缺陷之一,特提出以下技术方案:
第一方面,提供了一种长文本语义相似度匹配的方法,该方法包括:
分别对长文本和基准文本进行预处理,以得到长文本的多个句子分别对应的多个第一词向量和基准文本的一个句子对应的多个第二词向量,所述长文本包括多个句子,所述基准文本包括一个句子;
分别对所述多个第一词向量和所述多个第二词向量进行池化处理,以得到所述长文本的多个句子分别对应的多个第一语义向量,以及所述第二文本的一个句子对应的一个第二语义向量;
将所述多个第一语义向量输入预设的实体识别模型,以确定所述长文本包括的段落的段落类型;
根据所述段落类型确定每个段落中的第一语义向量对应的权重;
基于所述第一语义向量、所述第一语义向量对应的权重以及第二语义向量,计算得到所述长文本相对所述基准文本的相似度。
第二方面,提供了一种长文本语义相似度匹配的装置,该装置包括:
预处理模块,用于分别对长文本和基准文本进行预处理,以得到长文本的多个句子分别对应的多个第一词向量和基准文本的一个句子对应的多个第二词向量;
池化模块,用于分别对所述多个第一词向量和所述多个第二词向量进行池化处理,以得到所述长文本的多个句子分别对应的多个第一语义向量,以及所述第二文本的一个句子对应的一个第二语义向量;
分类模块,用于根据预设的实体识别模型和所述多个第一语义向量确定所述长文本包括的段落的段落类型;
权重模块,用于根据所述段落类型确定每个段落中的第一语义向量对应的权重;
相似度计算模块,用于基于所述第一语义向量、所述第一语义向量对应的权重、第二语义向量以及预设的算法模型,计算所述长文本相对所述基准文本的相似度。。
第三方面,提供了一种电子设备,该电子设备包括:
一个或多个处理器;
存储器;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于亚信科技(中国)有限公司,未经亚信科技(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011042061.6/2.html,转载请声明来源钻瓜专利网。