[发明专利]文本处理方法、装置及电子设备在审

申请号：	202111072902.2	申请日：	2021-09-14
公开（公告）号：	CN113722444A	公开（公告）日：	2021-11-30
发明（设计）人：	万家雪;苑爱泉;桑梓森;刘传宝;朱培源	申请（专利权）人：	口碑（上海）信息技术有限公司
主分类号：	G06F16/33	分类号：	G06F16/33;G06F40/126
代理公司：	北京中强智尚知识产权代理有限公司 11448	代理人：	黄耀威
地址：	200135 上海市浦东新区民生路11***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本处理方法装置电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种文本处理方法、装置及电子设备，涉及数据处理技术领域。其中方法包括：首先获取自然语言处理模型已训练完成的目标位置编码向量；再对所述目标位置编码向量中第一个数的目标位置编码分别进行分化处理，得到第二个数的新位置编码，其中，第二个数大于第一个数；然后将所述第二个数的新位置编码，组合得到新位置编码向量，并使得所述新位置编码向量中前第一个数的新位置编码与所述第一个数的目标位置编码一一对应；最后使用所述新位置编码向量作为参数的自然语言处理模型进行文本处理。本申请可提高自然语言处理模型计算能力，保证了搜索效率和准确性费。

技术领域

本申请涉及数据处理技术领域，尤其是涉及到一种文本处理方法、装置及电子设备。

背景技术

搜索是用户进行信息查找的最大入口，是连接用户和信息的重要纽带。用户体验，是衡量搜索的重要维度。

目前可利用自然语言处理模型，实现在搜索中对包括搜索词(query)和文档(doc)的文本部分进行处理。如相关性、词性标注、分词、句法结构分析、文本生成等多个任务上，是自然语言处理任务的重要应用技术。

然而，传统自然语言处理模型中的参数数据，限制了模型计算能力，进而影响了搜索效率和准确性。如使用了从随机初始化训练出来的目标位置编码，一般的最大位置设为固定的特定数值，因此会导致自然语言处理模型处理的文本长度会受到该最大位置的限制，无法处理更长的文本。

发明内容

有鉴于此，本申请提供了一种文本处理方法、装置及电子设备，主要目的在于改善目前现有技术中会限制自然语言处理模型计算能力，进而影响了搜索效率和准确性的技术问题。

依据本申请的一个方面，提供了一种文本处理方法，该方法包括：

获取自然语言处理模型已训练完成的目标位置编码向量；

对所述目标位置编码向量中第一个数的目标位置编码分别进行分化处理，得到第二个数的新位置编码，其中，第二个数大于第一个数；

将所述第二个数的新位置编码，组合得到新位置编码向量，并使得所述新位置编码向量中前第一个数的新位置编码与所述第一个数的目标位置编码一一对应；