[发明专利]文本处理方法、装置、设备及存储介质在审
申请号: | 202110017491.0 | 申请日: | 2021-01-07 |
公开(公告)号: | CN113392180A | 公开(公告)日: | 2021-09-14 |
发明(设计)人: | 欧子菁;赵瑞辉;林民龙;苏勤亮 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/30;G10L15/22 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 祝亚男 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 装置 设备 存储 介质 | ||
本申请公开了一种文本处理方法、装置、设备及存储介质,属于人工智能技术领域。本申请实施例引入了文本之间的关联关系信息,能够表征出文本之间的关联关系,从关联关系这个角度来表征文本之间的相似度,以该关联关系信息确定先验分布,后续得到的条件分布中在为语义特征向量确定对应的目标特征向量时,该目标特征向量则考虑到了文本之间关联关系这一因素,再通过语义特征向量来表征语义方面的特征,这样训练得到的条件分布,综合考虑了文本之间的关联关系和语义方面的特征,这样对于文本内容或者具有关联关系的文本的目标特征向量则会比较接近,该目标特征向量能够更准确地表征目标文本,以此进行相似度确定,能够得到更准确的相似度。
技术领域
本申请涉及人工智能技术领域,特别涉及一种文本处理方法、装置、设备及存储介质。
背景技术
随着计算机技术发展,在很多场景中会需要通过对文本进行相似度比较,然后确定出与某个文本相似的其它文本的情况。通过人工智能技术,对文本进行相似性搜索,能够根据文本在大规模数据库中找到最相似的项。
目前,文本处理方法通常是对文本进行分词,然后对其进行嵌入处理,得到文本的嵌入向量,进而后续通过计算两个文本的嵌入向量之间的距离,来确定两个文本的相似度。上述方法中仅考虑到了文本的语义特征,且两个文本的嵌入向量仅能简单描述文本分词得到的单词,体现的语义也比较弱,因而上述文本处理方法中,嵌入向量并不能很好的表征文本,因而并不能准确确定两个文本的相似度,处理结果的准确性较差。
发明内容
本申请实施例提供了一种文本处理方法、装置、设备及存储介质,能够达到提高文本处理的准确性。所述技术方案如下:
一方面,提供了一种文本处理方法,所述方法包括:
获取目标文本;
获取所述目标文本的语义特征向量;
获取语义特征向量条件下目标特征向量的条件分布,所述条件分布基于目标特征向量的先验分布联合所述至少两个样本文本的语义特征向量训练得到,所述先验分布为基于所述至少两个样本文本之间的关联关系信息得到的目标特征向量的分布;
基于所述目标文本的语义特征向量,从所述条件分布中,确定所述语义特征向量对应的均值,将所述均值作为所述目标文本的目标特征向量,所述目标特征向量用于与其他文本确定相似度。
在一些实施例中,所述目标特征向量包括至少两个元素;所述对所述目标文本的目标特征向量进行哈希编码,得到所述目标文本的哈希码,包括:
响应于所述目标特征向量中任一元素大于所述元素对应的阈值,将所述元素对应的哈希码确定为第一数值;所述阈值为所述至少两个样本文本的目标特征向量中所述元素的中位数;
响应于所述目标特征向量中任一元素小于或等于所述元素对应的阈值,将所述元素对应的哈希码确定为第二数值。
一方面,提供了一种文本处理方法,所述方法包括:
获取至少两个样本文本和所述至少两个样本文本的语义特征向量;
基于所述至少两个样本文本之间的引用关系或所述至少两个样本文本之间的相似度,获取所述至少两个样本文本之间的关联关系信息;
基于所述至少两个样本文本之间的关联关系信息,获取目标特征向量的先验分布;
基于目标特征向量的先验分布和所述至少两个样本文本的语义特征向量,获取所述语义特征向量条件下目标特征向量的条件分布。
一方面,提供了一种文本处理装置,所述装置包括:
获取模块,用于获取目标文本;
所述获取模块,还用于获取所述目标文本的语义特征向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110017491.0/2.html,转载请声明来源钻瓜专利网。