[发明专利]文本相似度确定方法、装置、设备及存储介质有效
申请号: | 202011009879.8 | 申请日: | 2020-09-23 |
公开(公告)号: | CN112149414B | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 向玥佳;刘博;陈曦;林镇溪;文瑞;管冲;高文龙;孙继超;张子恒;徐超;杨奕凡;张云燕 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/216;G06F18/22;G06F16/35 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 徐立 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 相似 确定 方法 装置 设备 存储 介质 | ||
本申请公开了一种文本相似度确定方法、装置、设备及存储介质,属于人工智能技术领域。所述方法包括:获取第一文本;确定第一文本中包含的要素词;对于N个要素种类中的目标要素种类,获取第一文本中属于目标要素种类的各个目标要素词与第二文本中属于目标要素种类的各个目标要素词之间的字词相似度;基于字词相似度,确定第一文本与第二文本在目标要素种类上的相似度;基于第一文本与第二文本在N个要素种类上的相似度,确定第一文本与第二文本之间的相似度。本申请实施例提供的技术方案,从要素词相似的角度确定不同文本在各个要素种类上的相似度,进而确定不同文本的相似度,提升了不同文本间相似度确定的准确性,扩大了适用范围。
技术领域
本申请涉及人工智能技术领域,特别涉及一种文本相似度确定方法、装置、设备及存储介质。
背景技术
随着人工智能技术的发展,人们需要处理的信息量激增。为了更好地利用这些海量信息进行统计分析,往往需要先对这些信息进行标准化处理。比如,在医疗领域中,往往需要将同一病情的多种表达方式统一为标准表达后,再进行统计分析。
相关技术中,是通过计算非标准表达文本与标准表达文本之间的编辑距离,来体现非标准表达文本与标准表达文本之间的相似度,在利用编辑距离作为相似度的同时辅助一些同义词规则,例如替换非标准表达中的字词,实现标准化任务。
通过相关技术确定的文本相似度的准确性低、适用范围小。例如,“癌”和“结节”的编辑距离是2,“癌”和“恶心肿瘤”的编辑距离是4,但是“癌”和“恶心肿瘤”显然要比“癌”和“结节”更接近。又比如用户输入的是“良性肿瘤”,那么会匹配成“良性癌”这种医学上不存在的表达。
发明内容
本申请实施例提供了一种文本相似度确定方法、装置、设备及存储介质,能够提升文本之间相似度计算的准确度,使得输出标准文本更加准确。所述技术方案如下:
根据本申请实施例的一个方面,提供了一种文本相似度确定方法,所述方法包括:
获取第一文本;
确定所述第一文本中包含的要素词,所述要素词是指属于预定义的N个要素种类中的任一要素种类的字词,所述N为正整数;
对于所述N个要素种类中的目标要素种类,获取所述第一文本中属于所述目标要素种类的各个目标要素词与第二文本中属于所述目标要素种类的各个目标要素词之间的字词相似度;
基于所述字词相似度,确定所述第一文本与所述第二文本在所述目标要素种类上的相似度;
基于所述第一文本与所述第二文本在所述N个要素种类上的相似度,确定所述第一文本与所述第二文本之间的相似度。
根据本申请实施例的一个方面,提供了一种文本相似度确定装置,所述装置包括:
文本获取模块,用于获取第一文本;
要素词确定模块,用于确定所述第一文本中包含的要素词,所述要素词是指属于预定义的N个要素种类中的任一要素种类的字词,所述N为正整数;
字词相似度获取模块,用于对于所述N个要素种类中的目标要素种类,获取所述第一文本中属于所述目标要素种类的各个目标要素词与第二文本中属于所述目标要素种类的各个目标要素词之间的字词相似度;
要素相似度确定模块,用于基于所述字词相似度,确定所述第一文本与所述第二文本在所述目标要素种类上的相似度;
整体相似度确定模块,用于基于所述第一文本与所述第二文本在所述N个要素种类上的相似度,确定所述第一文本与所述第二文本之间的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011009879.8/2.html,转载请声明来源钻瓜专利网。