[发明专利]相似文本匹配方法、装置、电子设备及存储介质有效
| 申请号: | 202110320474.4 | 申请日: | 2021-03-25 |
| 公开(公告)号: | CN112883730B | 公开(公告)日: | 2023-01-17 |
| 发明(设计)人: | 周琅;杜佳辉 | 申请(专利权)人: | 平安国际智慧城市科技股份有限公司 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06F40/242;G06F40/30 |
| 代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 广东省深圳市前海深港合*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 相似 文本 匹配 方法 装置 电子设备 存储 介质 | ||
本发明涉及文本处理技术,揭露了一种相似文本匹配方法,包括:按照文本主题对获取的文本集合中各文本进行分类,得到分类文本;利用实体特征提取模型提取分类文本的实体特征要素,并根据实体特征要素生成分类文本的索引数据表;对目标文本进行实体要素特征提取,得到目标实体特征要素;根据目标实体特征要素在索引数据表中进行多重要素匹配,得到匹配实体特征要素;将匹配实体特征要素对应的分类文本汇集为目标文本的相似文本。此外,本发明还涉及区块链技术,所述文本集合可存储于区块链的节点。本发明还提出一种相似文本匹配装置、电子设备以及计算机可读存储介质。本发明可以解决相似文本匹配时效率较低的问题。
技术领域
本发明涉及文本处理技术领域,尤其涉及一种相似文本匹配方法、装置、电子设备及计算机可读存储介质。
背景技术
相似文本匹配技术已经在人们日常生活中得到越来越多的应用,例如,在法律领域,律师或相关人员面对着越来越多需要处理的案件,但新案件往往与历史案件存在着一定的相似,因此历史案件可以被人们借鉴,以实现对新案件的高效处理。
目前主要的相似文本匹配方法多为基于文章语义的相似文本匹配,即提取文本中的句子含义,将不同文本之间的句子含义进行对比分析,得到文本之间的相似度,但面对着大量文本以及每个文本中包含的大量信息,对每个文本进行语义分析会占用大量的计算资源,导致相似文本匹配的效率低下。
发明内容
本发明提供一种相似文本匹配方法、装置及计算机可读存储介质,其主要目的在于解决相似文本匹配时效率较低的问题。
为实现上述目的,本发明提供的一种相似文本匹配方法,包括:
获取文本集合,按照文本主题对所述文本集合中各文本进行分类,得到分类文本;
利用预先训练的实体特征提取模型提取所述分类文本的实体特征要素,并根据所述实体特征要素生成所述分类文本的索引数据表;
获取目标文本,对所述目标文本进行实体要素特征提取,得到目标实体特征要素;
根据所述目标实体特征要素在所述索引数据表中进行多重要素匹配,得到匹配实体特征要素;
将所述匹配实体特征要素对应的分类文本汇集为所述目标文本的相似文本。
可选地,所述按照文本主题对所述文本集合中各文本进行分类,得到分类文本,包括:
对所述文本集合中各文本进行分词处理,得到文本分词;
对所述文本分词进行词频统计,得到分词词频;
根据所述分词词频计算所述文本分词的分词权重;
确定所述分词权重大于预设的权重阈值的文本分词为所述文本集合中对应文本的主题词;
按照所述主题词将所述文本集合中的文本进行分类,得到分类文本。
可选地,所述对所述文本集合中各文本进行分词处理,得到文本分词,包括:
遍历所述文本集合中各文本以确定各文本中断句符号的位置;
根据所述断句符号的位置将所述文本集合中各文本分解为多个单独句子;
利用预设标准词典将所述多个单独句子分别进行单词切分,得到文本分词。
可选地,所述根据所述实体特征要素生成所述分类文本的索引数据表,包括:
构建空白数据表;
将所述分类文本的文本类别作为所述空白数据表的表名,将所述分类文本的实体特征要素作为所述空白数据表的主键,得到索引数据表。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安国际智慧城市科技股份有限公司,未经平安国际智慧城市科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110320474.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:空调器
- 下一篇:一种房屋主体改造中拆除加固判断方法及系统





