[发明专利]文本相似度分析方法、装置和存储介质有效

专利信息
申请号: 201911394188.1 申请日: 2019-12-30
公开(公告)号: CN111144112B 公开(公告)日: 2023-07-14
发明(设计)人: 卢达沛;罗乐滔;陈惠芳;胡志乐;黄娇燕 申请(专利权)人: 广州广电运通信息科技有限公司;广州广电运通金融电子股份有限公司
主分类号: G06F40/289 分类号: G06F40/289;G06F40/205;G06F18/22
代理公司: 广州嘉权专利商标事务所有限公司 44205 代理人: 黎扬鹏
地址: 510663 广东省广州市广州高*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 相似 分析 方法 装置 存储 介质
【说明书】:

发明公开了文本相似度分析方法、装置和存储介质,方法包括以下步骤:获取第一文本和第二文本;根据第一文本、第二文本分别获取第一主题关键词集合和第二主题关键词集合;根据第一文本和第二文本,获取第一文本相对第二文本相似的第三句子的第一数量,以及获取第二文本相对第一文本相似的第四句子的第二数量;获取第一文本与第二文本的相似度分析结果,相似度分析结果包括主题关联度、内容相似度、第一文本相对第二文本的相似度、第二文本相对第一文本的相似度的至少两种。通过本发明使得相似度分析结果准确,即使是长文本和短文本的比对也能获得准确的相似度分析结果,适用性强。本发明可广泛应用于数据处理领域。

技术领域

本发明涉及数据处理领域,尤其是一种文本相似度分析方法、装置和存储介质。

背景技术

在自然语言处理(Natural Language Processing)中,经常会涉及到如何度量两个文本的相似度问题。例如对话系统、信息检索的问题,如何度量两个文本的相似度尤为重要。而目前,度量文本相似度的方法有将文本映射到向量空间,利用余弦相似度计算或者其他距离计算,或基于深度学习训练词向量,构造文本向量,利用余弦相似度计算。然而,现有方法适用性差,评判标准单一,不能准确对长文本和短文本进行相似度分析,例如,当A文档内容少时,与B文档进行相似度对比,得出的结果可能为50%,而当A文档内容非常多时,与B文档进行相似度对比得出的结果可能为80%,而该结果实际上可能仅仅是因为A文档包含的内容越多,而更有可能全部包含B文档的内容,也就是说实际上得出的两个文本的相似度分析结果不准确。

发明内容

有鉴于此,为了解决上述技术问题,本发明的目的是提供一种准确且适用性强的文本相似度分析方法、装置和存储介质。

本发明采用的技术方案是:文本相似度分析方法,包括以下步骤:

获取第一文本和第二文本,其中第一文本包括若干个第一句子,第二文本包括若干个第二句子;

根据第一文本获取第一文本的第一主题关键词集合,根据第二文本获取第二文本的第二主题关键词集合;

根据第一文本和第二文本,获取第一文本相对第二文本相似的第三句子的第一数量,以及获取第二文本相对第一文本相似的第四句子的第二数量;

获取第一文本与第二文本的相似度分析结果,相似度分析结果包括主题关联度、内容相似度、第一文本相对第二文本的相似度、第二文本相对第一文本的相似度的至少两种,具体地,相似度分析结果的获取步骤如下:

根据第一主题关键词集合和第二主题关键词集合,得到主题关联度;

根据第一主题关键词集合和第一数量,得到第一文本相对第二文本的相似度;

根据第二主题关键词集合和第二数量,得到第二文本相对第一文本的相似度;

根据第一主题关键词集合、第二主题关键词集合、第一数量和第二数量,得到内容相似度;

其中,第一句子包括第三句子、第二句子包括第四句子,第一主题关键词集合包括若干个第一主题关键词、第二主题关键词集合包括若干个第二主题关键词。

进一步,所述根据第一文本和第二文本,获取第一文本相对第二文本相似的第三句子的第一数量,以及获取第二文本相对第一文本相似的第四句子的第二数量的步骤中,包括以下步骤:

对每一第一句子进行分词处理、关键词提取和过滤,得到每一第一句子的第一关键词集合,以及对每一第二句子进行分词处理、关键词提取和过滤,得到每一第二句子的第二关键词集合,其中第一关键词集合包括至少一个第一关键词,第二关键词集合包括至少一个第二关键词;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州广电运通信息科技有限公司;广州广电运通金融电子股份有限公司,未经广州广电运通信息科技有限公司;广州广电运通金融电子股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911394188.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top