[发明专利]文本处理方法及装置在审

申请号：	202310028994.7	申请日：	2023-01-09
公开（公告）号：	CN115994535A	公开（公告）日：	2023-04-21
发明（设计）人：	王焜;余赢超;王景峰	申请（专利权）人：	珠海金山数字网络科技有限公司
主分类号：	G06F40/289	分类号：	G06F40/289;G06F40/30
代理公司：	北京智信禾专利代理有限公司 11637	代理人：	金鹏
地址：	519000 广东省珠海市高新区唐家湾镇前岛环路325号102室***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本处理方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供文本处理方法及装置，其中所述文本处理方法包括：提取待处理文本中的目标文本段；基于目标文本段的字符顺序，对目标文本段进行分词，获得初始文本段和预设数量的初始分词，其中，初始文本段为目标文本段中除初始分词外剩余的文本段；将初始分词中的指定分词与初始文本段进行合并，获得更新后的目标文本段，并返回执行基于目标文本段的字符顺序，对目标文本段进行分词的步骤；在达到预设分词停止条件的情况下，获得待处理文本对应的分词集合。通过对目标文本段进行分词，获得初始文本段和预设数量的初始分词，将初始分词中的指定分词与初始文本段进行合并，对目标文本段进行更新，仅关注文本的局部语义，实现了高效、准确的文本处理。

技术领域

本申请涉及计算机技术领域，特别涉及一种文本处理方法。本申请同时涉及一种文本处理装置、一种计算设备，以及一种计算机可读存储介质。

背景技术

随着互联网技术的发展，自然语言处理(NLP，Natural Language Processing)的文本处理任务中，由于文本的内容通常较多、篇幅较长，为了方便用户获取文本中的有效信息，在处理文本之前，可以对文本进行分词，因此，文本分词逐渐成为自然语言处理任务中的研究重点。

现有技术中，通常采用深度学习的方法，将分词问题转化为一个序列标注问题，对文本中的每个字标注其属性，获得分词结果。

然而，上述深度学习的方案速度较慢，过于耗费算力和内存，导致文本处理的效率低且准确性不高。

发明内容

有鉴于此，本申请实施例提供了一种文本处理方法，以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种文本处理装置，一种计算设备，以及一种计算机可读存储介质。

根据本申请实施例的第一方面，提供了一种文本处理方法，包括：

提取待处理文本中的目标文本段；

基于目标文本段的字符顺序，对目标文本段进行分词，获得初始文本段和预设数量的初始分词，其中，初始文本段为目标文本段中除初始分词外剩余的文本段；

将初始分词中的指定分词与初始文本段进行合并，获得更新后的目标文本段，并返回执行基于目标文本段的字符顺序，对目标文本段进行分词的步骤；