[发明专利]相似文本匹配方法、装置、电子设备及存储介质有效
| 申请号: | 202110320474.4 | 申请日: | 2021-03-25 |
| 公开(公告)号: | CN112883730B | 公开(公告)日: | 2023-01-17 |
| 发明(设计)人: | 周琅;杜佳辉 | 申请(专利权)人: | 平安国际智慧城市科技股份有限公司 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06F40/242;G06F40/30 |
| 代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 广东省深圳市前海深港合*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 相似 文本 匹配 方法 装置 电子设备 存储 介质 | ||
1.一种相似文本匹配方法,其特征在于,所述方法包括:
获取文本集合,按照文本主题对所述文本集合中各文本进行分类,得到分类文本;
利用预先训练的实体特征提取模型提取所述分类文本的实体特征要素,并根据所述实体特征要素生成所述分类文本的索引数据表,其中,所述索引数据表中包含用于调取对应的分类文本的文本调用选项或链接地址;
获取目标文本,对所述目标文本进行实体要素特征提取,得到目标实体特征要素;
计算所述目标实体特征要素与索引数据表名的第一匹配值,并选取所述第一匹配值大于预设的第一匹配阈值的索引数据表为目标索引数据表;
计算所述目标实体特征要素与所述目标索引数据表中各实体特征要素的第二匹配值,并确定所述第二匹配值大于预设的第二匹配阈值的实体特征要素为匹配实体特征要素;
将所述匹配实体特征要素对应的分类文本汇集为所述目标文本的相似文本。
2.如权利要求1所述的相似文本匹配方法,其特征在于,所述按照文本主题对所述文本集合中各文本进行分类,得到分类文本,包括:
对所述文本集合中各文本进行分词处理,得到文本分词;
对所述文本分词进行词频统计,得到分词词频;
根据所述分词词频计算所述文本分词的分词权重;
确定所述分词权重大于预设的权重阈值的文本分词为所述文本集合中对应文本的主题词;
按照所述主题词将所述文本集合中的文本进行分类,得到分类文本。
3.如权利要求2所述的相似文本匹配方法,其特征在于,所述对所述文本集合中各文本进行分词处理,得到文本分词,包括:
遍历所述文本集合中各文本以确定各文本中断句符号的位置;
根据所述断句符号的位置将所述文本集合中各文本分解为多个单独句子;
利用预设标准词典将所述多个单独句子分别进行单词切分,得到文本分词。
4.如权利要求1所述的相似文本匹配方法,其特征在于,所述根据所述实体特征要素生成所述分类文本的索引数据表,包括:
构建空白数据表;
将所述分类文本的文本类别作为所述空白数据表的表名,将所述分类文本的实体特征要素作为所述空白数据表的主键,得到索引数据表。
5.如权利要求4所述的相似文本匹配方法,其特征在于,所述计算所述目标实体特征要素与所述索引数据表名的第一匹配值,包括:
统计所述目标实体特征要素与所述索引数据表名的重合字粒度;
对所述目标实体特征要素进行语义向量转换,得到目标语义向量;
对所述索引数据表名进行语义向量转换,得到表名语义向量;
计算所述目标语义向量与所述表名语义向量之间的向量偏差;
将所述向量偏差与所述重合字粒度的倒数相乘得到所述第一匹配值。
6.如权利要求5所述的相似文本匹配方法,其特征在于,所述对所述目标实体特征要素进行语义向量转换,得到目标语义向量,包括:
获取所述目标实体特征要素对应的字节向量集,所述字节向量集中包含目标实体特征要素中每个字节的字节向量;
将所述目标实体特征要素中每个字节对应的字节向量分别进行拼接,得到所述目标语义向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安国际智慧城市科技股份有限公司,未经平安国际智慧城市科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110320474.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:空调器
- 下一篇:一种房屋主体改造中拆除加固判断方法及系统





