[发明专利]文本相似度确定方法、装置、设备及存储介质有效
申请号: | 202011009879.8 | 申请日: | 2020-09-23 |
公开(公告)号: | CN112149414B | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 向玥佳;刘博;陈曦;林镇溪;文瑞;管冲;高文龙;孙继超;张子恒;徐超;杨奕凡;张云燕 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/216;G06F18/22;G06F16/35 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 徐立 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 相似 确定 方法 装置 设备 存储 介质 | ||
1.一种文本相似度确定方法,其特征在于,所述方法包括:
获取第一文本;
确定所述第一文本中包含的要素词,所述要素词是指属于预定义的N个要素种类中的任一要素种类的字词,所述N为正整数;
对于所述N个要素种类中的目标要素种类,获取所述目标要素种类包含的各个要素词相互之间的上下位关系;
基于所述上下位关系,构造所述目标要素种类的要素词结构树,所述目标要素种类包含的各个要素词分布在所述要素词结构树的各个节点上,所述要素词结构树包括具有父子关系的第一节点和第二节点,所述第一节点上的要素词是所述第二节点上的要素词的上位词,所述第二节点上的要素词是所述第一节点上的要素词的下位词;
基于所述要素词结构树中所述各个节点之间的位置关系,确定相似度矩阵,所述相似度矩阵中的元素反映所述元素所在行对应的要素词与所述元素所在列对应的要素词之间的字词相似度;
对于所述第一文本中的第一目标要素词和第二文本中的第二目标要素词,从所述相似度矩阵中查找获取所述第一目标要素词与所述第二目标要素词之间的字词相似度;其中,所述相似度矩阵中包括所述目标要素种类包含的各个目标要素词中两两之间的字词相似度;
基于所述第一文本中属于所述目标要素种类的各个目标要素词与所述第二文本中属于所述目标要素种类的各个目标要素词之间的字词相似度,确定所述第一文本与所述第二文本在所述目标要素种类上的相似度;
基于所述第一文本与所述第二文本在所述N个要素种类上的相似度,确定所述第一文本与所述第二文本之间的相似度。
2.根据权利要求1所述的方法,其特征在于,所述基于所述要素词结构树中所述各个节点之间的位置关系,确定相似度矩阵,包括:
对所述目标要素种类i包含的n个要素词进行排序,得到所述n个要素词的排列次序,所述排列次序用于确定所述n个要素词在所述相似度矩阵中对应的行序或者列序,所述相似度矩阵为n×n的矩阵,所述i、所述n为正整数;
在第x行对应的要素词vx与第y列对应的要素词vy为同一要素词的情况下,确定位于所述相似度矩阵中第x行、第y列的元素的值为1,所述x、y均为小于或者等于所述n的正整数;
在所述第x行对应的所述要素词vx与所述第y列对应的所述要素词vy之间为冲突关系的情况下,确定所述元素的值为0,所述冲突关系是指不存在所述上下位关系的要素词之间的关系;
在所述第x行对应的要素词vx与所述第y列对应的要素词vy之间具有所述上下位关系的情况下,基于所述要素词vx与所述要素词vy在所述要素词结构树中的距离,确定所述元素的值。
3.根据权利要求1所述的方法,其特征在于,所述确定所述第一文本与所述第二文本在所述目标要素种类上的相似度,包括:
对所述第一文本中属于所述目标要素种类的各个目标要素词与所述第二文本中属于所述目标要素种类的各个目标要素词之间的字词相似度进行求和处理,得到字词相似度和;
将所述字词相似度和与所述第二文本中属于所述目标要素种类的目标要素词的数量相除,得到所述目标要素种类上所述第一文本对所述第二文本的覆盖率;
将所述字词相似度和与所述第一文本中属于所述目标要素种类的目标要素词的数量相除,得到所述目标要素种类上所述第二文本对所述第一文本的覆盖率;
对于所述目标要素种类,将所述第一文本对所述第二文本的覆盖率,与所述第二文本对所述第一文本的覆盖率相乘,得到所述第一文本与所述第二文本在所述目标要素种类上的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011009879.8/1.html,转载请声明来源钻瓜专利网。