[发明专利]一种文本处理方法及相关装置在审

申请号：	202011312821.0	申请日：	2020-11-20
公开（公告）号：	CN112395859A	公开（公告）日：	2021-02-23
发明（设计）人：	马建	申请（专利权）人：	中国平安人寿保险股份有限公司
主分类号：	G06F40/211	分类号：	G06F40/211;G06K9/62;G06N3/04;G06N3/08
代理公司：	广州三环专利商标代理有限公司 44202	代理人：	熊永强
地址：	518000 广东省深圳市福田区益田路5033号***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本处理方法相关装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及计算机技术领域，提供一种文本处理方法及相关装置，所述方法包括：将第一文本和第二文本输入孪生网络结构的句向量生成模型，得到所述第一文本对应的第一特征向量和所述第二文本对应的第二特征向量；对所述第一特征向量和所述第二特征向量分别进行强特征提取处理，得到所述第一文本对应的第一句向量和所述第二文本对应的第二句向量；对所述第一句向量和所述第二句向量分别进行降维处理，得到所述第一文本对应的第一输出向量和所述第二文本对应的第二输出向量；根据所述第一输出向量和所述第二输出向量，确定所述第一文本和所述第二文本的相似度。本申请实施例的技术方案，能够提高计算文本相似度的效率和准确率。

技术领域

本申请涉及计算机技术领域，尤其涉及一种文本处理方法及相关装置。

背景技术

自然语言处理(natural language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。自然语言处理的任务中包括计算文本相似度。

目前，通常使用Bert模型计算文本相似度。但是使用Bert模型计算文本相似度时，需要将两个待比较的文本同时输入两个Bert模型中进行处理，得到待比较文本对应的句向量，根据句向量确定文本相似度，这样会造成较大的计算开销，效率较低。并且，使用Bert模型生成句向量时，通常会丢失文本中的部分较为重要的信息，在确定文本相似度时，准确率较低。

发明内容

本申请提供了一种文本处理方法及相关装置，能够提高计算文本相似度的效率和准确率。

本申请第一方面提供了一种文本处理方法，包括：

将第一文本和第二文本输入孪生网络结构的句向量生成模型，得到所述第一文本对应的第一特征向量和所述第二文本对应的第二特征向量；

对所述第一特征向量和所述第二特征向量分别进行强特征提取处理，得到所述第一文本对应的第一句向量和所述第二文本对应的第二句向量；

对所述第一句向量和所述第二句向量分别进行降维处理，得到所述第一文本对应的第一输出向量和所述第二文本对应的第二输出向量；

根据所述第一输出向量和所述第二输出向量，确定所述第一文本和所述第二文本的相似度。

本申请第二方面提供了一种文本处理装置，包括：

输入模块，用于将第一文本和第二文本输入孪生网络结构的句向量生成模型，得到所述第一文本对应的第一特征向量和所述第二文本对应的第二特征向量；

提取模块，用于对所述第一特征向量和所述第二特征向量分别进行强特征提取处理，得到所述第一文本对应的第一句向量和所述第二文本对应的第二句向量；

降维模块，用于对所述第一句向量和所述第二句向量分别进行降维处理，得到所述第一文本对应的第一输出向量和所述第二文本对应的第二输出向量；

确定模块，用于根据所述第一输出向量和所述第二输出向量，确定所述第一文本和所述第二文本的相似度。