[发明专利]文本处理方法及装置在审
| 申请号: | 202310028994.7 | 申请日: | 2023-01-09 |
| 公开(公告)号: | CN115994535A | 公开(公告)日: | 2023-04-21 |
| 发明(设计)人: | 王焜;余赢超;王景峰 | 申请(专利权)人: | 珠海金山数字网络科技有限公司 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30 |
| 代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 金鹏 |
| 地址: | 519000 广东省珠海市高新区唐家湾镇前岛环路325号102室*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 处理 方法 装置 | ||
本申请提供文本处理方法及装置,其中所述文本处理方法包括:提取待处理文本中的目标文本段;基于目标文本段的字符顺序,对目标文本段进行分词,获得初始文本段和预设数量的初始分词,其中,初始文本段为目标文本段中除初始分词外剩余的文本段;将初始分词中的指定分词与初始文本段进行合并,获得更新后的目标文本段,并返回执行基于目标文本段的字符顺序,对目标文本段进行分词的步骤;在达到预设分词停止条件的情况下,获得待处理文本对应的分词集合。通过对目标文本段进行分词,获得初始文本段和预设数量的初始分词,将初始分词中的指定分词与初始文本段进行合并,对目标文本段进行更新,仅关注文本的局部语义,实现了高效、准确的文本处理。
技术领域
本申请涉及计算机技术领域,特别涉及一种文本处理方法。本申请同时涉及一种文本处理装置、一种计算设备,以及一种计算机可读存储介质。
背景技术
随着互联网技术的发展,自然语言处理(NLP,Natural Language Processing)的文本处理任务中,由于文本的内容通常较多、篇幅较长,为了方便用户获取文本中的有效信息,在处理文本之前,可以对文本进行分词,因此,文本分词逐渐成为自然语言处理任务中的研究重点。
现有技术中,通常采用深度学习的方法,将分词问题转化为一个序列标注问题,对文本中的每个字标注其属性,获得分词结果。
然而,上述深度学习的方案速度较慢,过于耗费算力和内存,导致文本处理的效率低且准确性不高。
发明内容
有鉴于此,本申请实施例提供了一种文本处理方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种文本处理装置,一种计算设备,以及一种计算机可读存储介质。
根据本申请实施例的第一方面,提供了一种文本处理方法,包括:
提取待处理文本中的目标文本段;
基于目标文本段的字符顺序,对目标文本段进行分词,获得初始文本段和预设数量的初始分词,其中,初始文本段为目标文本段中除初始分词外剩余的文本段;
将初始分词中的指定分词与初始文本段进行合并,获得更新后的目标文本段,并返回执行基于目标文本段的字符顺序,对目标文本段进行分词的步骤;
在达到预设分词停止条件的情况下,获得待处理文本对应的分词集合。
根据本申请实施例的第二方面,提供了一种文本处理装置,包括:
提取模块,被配置为提取待处理文本中的目标文本段;
分词模块,被配置为基于目标文本段的字符顺序,对目标文本段进行分词,获得初始文本段和预设数量的初始分词,其中,初始文本段为目标文本段中除初始分词外剩余的文本段;
合并模块,被配置为将初始分词中的指定分词与初始文本段进行合并,获得更新后的目标文本段,并返回执行基于目标文本段的字符顺序,对目标文本段进行分词的步骤;
获得模块,被配置为在达到预设分词停止条件的情况下,获得待处理文本对应的分词集合。
根据本申请实施例的第三方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器执行所述计算机可执行指令时实现所述文本处理方法的步骤。
根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述文本处理方法的步骤。
根据本申请实施例的第五方面,提供了一种芯片,其存储有计算机程序,该计算机程序被芯片执行时实现所述文本处理方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海金山数字网络科技有限公司,未经珠海金山数字网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310028994.7/2.html,转载请声明来源钻瓜专利网。





