[发明专利]一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质在审

专利信息
申请号: 202010970734.8 申请日: 2020-09-16
公开(公告)号: CN112232053A 公开(公告)日: 2021-01-15
发明(设计)人: 冯筠;卢鑫;孙霞;邓瑶 申请(专利权)人: 西北大学
主分类号: G06F40/194 分类号: G06F40/194;G06F16/332;G06K9/62;G06N3/04;G06N3/08
代理公司: 西安恒泰知识产权代理事务所 61216 代理人: 李婷
地址: 710069 *** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 关键词 匹配 文本 相似 计算 系统 方法 存储 介质
【说明书】:

发明提出了一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质,对于文本P和Q,借助Word2vec、双向长短期记忆网络(BiLSTM)、注意力(Attention)机制以及双任务架构完成文本相似度计算。本发明通过WP‑Attention和双任务架构避免了噪声和冗余数据对模型性能的影响,模型结构简单、易于扩展、鲁棒性强,在实践中易于推广使用。

技术领域

本发明涉及文本挖掘和计算机技术领域,具体而言,涉及一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质。

背景技术

随着互联网和人工智能的迅速发展,互联网产生的信息呈现爆炸式的增长,人们迫切希望从海量信息中提取与自身需要和兴趣吻合度高的内容。为了满足此需求,出现了多种应用,如搜索引擎、自动问答系统、文档分类与聚类、文本信息检索等,而这些应用场景的关键技术之一就是文本相似度计算技术,这些应用的性能取决于句子相似度计算的准确性。

自然语言处理任务中的文本相似度旨在研究两个文本在语义层面的匹配程度,若相似度越大,则两者的之间越匹配;若相似度越小,则两者之间越不匹配。文本语义相似度计算的核心以及最大的难点就是语义理解,只有对文本具有很好的认知能力、理解能力,才能具备精准的计算能力。

文本相似度有着非常重要的意义,例如在某些特定领域(金融、医学)的自动问答系统,需要根据用户所描述的问题含义在已有数据库中进行检索匹配相关问题并返回最优答案,此时需要利用本文相似度技术计算最匹配的问题;在信息智能检索领域,搜索引擎需要对用户输入关键字的列出所有与该关键字相匹配的网页,并且利用文本相似度技术,对搜索结果进行进一步的处理,按照文本的相似度对搜索结果进行排序,以提高信息检索的质量。因此,研究文本相似度的算法具有重要的实际价值。

现有的文本相似度计算方法主要包括:基于词袋模型的方法、基于神经网络的方法、基于知识库的方法和基于句法分析的方法。这些方法都是通过捕获文本的语义向量来计算文本的相似度。这些方法都只是对文本对P、Q进行浅层的相似度计算并且忽略了文本对P、Q本身的特征:存在冗余信息和噪声,大大影响了文本对P、Q相似度计算的准确性。

发明内容

本发明的目的在于文本相似度计算现有技术存在缺陷或者不足,解决文本对P、Q存在的冗余和噪声问题,使用多种语义层面和词、句子两个粒度来对文本对P、Q进行相似度计算,本发明公开基于多关键词对匹配的文本相似度计算系统、方法、及存储介质。

为了实现上述任务,本发明采用如下技术方案予以实现:

一种基于多关键词对匹配的文本相似度计算系统,至少包括依次相连的:

文本预处理模块:将获取到的第一文本P、第二文本Q分别进行预处理,得到预处理后的文本对P,Q;

预训练模块:将文本对P,Q通过预训练得到每个词的词向量;

上下文模块:将预训练得到每个词的词向量进行语义编码,得到文本对P,Q的语义向量;

关键词对抽取模块:从文本对P,Q中抽取多个具有不同语义层面的关键词对;

词级别相似度计算模块:通过词级别的任务计算文本对P,Q词级别的相似度;

句子级别相似度计算模块:通过句子级别的任务计算文本对P,Q句子级别的相似度;

相似度结果输出模块:将文本对P,Q词级别的任务和句子级别的任务得到的相似度值经过权重加权求和,得到文本相似度值。

本发明还公开了一种基于多关键词对匹配的文本相似度计算方法,包括如下步骤:

步骤S1:将第一文本P、第二文本Q分别进行预处理,包括分词、去停用词处理,得到预处理后的文本对P,Q;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北大学,未经西北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010970734.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top