[发明专利]一种文本相似度计算去重方法、系统、介质及设备在审
| 申请号: | 202210612069.4 | 申请日: | 2022-05-31 |
| 公开(公告)号: | CN114818986A | 公开(公告)日: | 2022-07-29 |
| 发明(设计)人: | 韩召宁;赵国帅;罗一玲;钱学明 | 申请(专利权)人: | 西安金讯通软件技术有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F40/30;G06F40/295;G06F40/242;G06F16/335 |
| 代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 高博 |
| 地址: | 710075 陕西省西安市高*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文本 相似 计算 方法 系统 介质 设备 | ||
1.一种文本相似度计算去重方法,其特征在于,包括以下步骤:
S1、对热线文本数据集进行预处理,得到包含工单编号、人物、地点、日期、手机号码和文本内容的数据集;
S2、将步骤S1得到的数据集输入sbert+名词实体识别+关键词提取+word2vec模型中,结合去停用词和自定义词库进行初始化,获得文本数据的特征向量,并对文本数据进行名词实体抽取和关键词抽取,得到每一条热线文本数据的文本特征向量;
S3、提取新文本的特征,输入新的热线文本到sbert+名词实体识别+关键词提取+word2vec模型中,获得新文本的最终特征向量;
S4、从步骤S2得到的每一条热线文本数据的文本特征向量中筛选设定日期内数据量的特征向量,将步骤S3得到的新文本的最终特征向量与特征向量进行余弦相似度计算,得到文本相似度结果;
S5、基于步骤S4得到的文本相似度结果,将相似度排名前50的热线文本数据输出,实现文本相似度计算去重。
2.根据权利要求1所述的文本相似度计算去重方法,其特征在于,步骤S1中,数据集格式为utf-8编码的csv文件,工单编号和热线文本内容为必填属性。
3.根据权利要求1所述的文本相似度计算去重方法,其特征在于,步骤S2中,输入sentence句子到sbert+名词实体识别+关键词提取+word2vec模型中,sbert模型使用平均池化策略,将均值后的向量作为句向量Vs,得到全局特征,word2vec模型获得名词词向量Vn,通过TFIDF算法获得关键词词向量Vk,得到局部特征,将名词词向量Vn和关键词词向量Vk进行平均,再和句向量Vs进行平均,得到最后的句向量Vn×d,n为热线文本数据集中的数据量,d为向量维度,将所有热线文本数据的特征向量进行序列化保存,使用pickle模块dump序列化数据所有热线文本的特征向量,将特征向量的结果数据流写入文件对象,使用load反序列化对象,还原得到每一条热线文本数据的文本特征向量。
4.根据权利要求1所述的文本相似度计算去重方法,其特征在于,步骤S2中,对文本数据进行名词实体抽取具体为:
使用命名实体识别识别出热线文本中的所有实体,通过自定义词典可识别出正确的实体,并抽取出所有名词实体,实现特征增强。
5.根据权利要求1所述的文本相似度计算去重方法,其特征在于,步骤S2中,对文本数据进行关键词抽取具体为:
使用TF-IDF算法进行关键词提取,通过语料库得出逆文档频率IDF值,使用热线文本语料库对逆文档频率IDF的文本语料库进行训练,得到每个词的IDF值,输入待提取关键词的文本,计算得到词频TF,得到最终的TF-IDF值,将所有词排序得到关键词集合并返回10个TFIDF权重最大的关键词,实现热线文本的特征增强。
6.根据权利要求5所述的文本相似度计算去重方法,其特征在于,词频TF和逆文档频率IDF具体为:
7.根据权利要求1所述的文本相似度计算去重方法,其特征在于,步骤S4中,两个文本间的余弦相似度similarity计算如下:
其中,A为文本1的特征向量,B为文本2的特征向量,n为特征向量的维度,Ai为向量A的第i个元素,Bi为向量B的第i个元素,θ为两个向量间的夹角。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安金讯通软件技术有限公司,未经西安金讯通软件技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210612069.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:驱动激励器和电子设备
- 下一篇:一种环保型园林景观灯





