[发明专利]文本处理方法及装置在审
| 申请号: | 202310028994.7 | 申请日: | 2023-01-09 |
| 公开(公告)号: | CN115994535A | 公开(公告)日: | 2023-04-21 |
| 发明(设计)人: | 王焜;余赢超;王景峰 | 申请(专利权)人: | 珠海金山数字网络科技有限公司 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30 |
| 代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 金鹏 |
| 地址: | 519000 广东省珠海市高新区唐家湾镇前岛环路325号102室*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 处理 方法 装置 | ||
1.一种文本处理方法,其特征在于,包括:
提取待处理文本中的目标文本段;
基于所述目标文本段的字符顺序,对所述目标文本段进行分词,获得初始文本段和预设数量的初始分词,其中,所述初始文本段为所述目标文本段中除所述初始分词外剩余的文本段;
将所述初始分词中的指定分词与所述初始文本段进行合并,获得更新后的目标文本段,并返回执行所述基于所述目标文本段的字符顺序,对所述目标文本段进行分词的步骤;
在达到预设分词停止条件的情况下,获得所述待处理文本对应的分词集合。
2.根据权利要求1所述的方法,其特征在于,所述提取待处理文本中的目标文本段,包括:
根据所述待处理文本的字符顺序,将所述待处理文本和特定领域词库进行匹配,确定所述待处理文本中的目标分词,其中,所述特定领域词库包括多个特定领域词语;
以所述目标分词为分割点,对所述待处理文本进行分割,获得所述目标文本段。
3.根据权利要求2所述的方法,其特征在于,所述以所述目标分词为分割点,对所述待处理文本进行分割,获得所述目标文本段,包括:
以所述目标分词为分割点,对所述待处理文本进行分割,获得候选文本段;
对所述候选文本段进行字符识别,确定所述候选文本段中指定类型的字符;
将所述指定类型的字符从所述候选文本段中删除,获得所述目标文本段,其中,所述指定类型包括字母、数字、符号中的至少一种。
4.根据权利要求3所述的方法,其特征在于,所述在达到预设分词停止条件的情况下,获得所述待处理文本对应的分词集合之后,还包括:
基于所述待处理文本的字符顺序,对所述目标分词、所述指定类型的字符和所述分词集合进行排序,获得文本处理结果。
5.根据权利要求1所述的方法,其特征在于,所述基于所述目标文本段的字符顺序,对所述目标文本段进行分词,获得初始文本段和预设数量的初始分词,包括:
基于所述目标文本段的字符顺序和词特征库中各词语的词特征信息,对所述目标文本段进行分词,获得初始文本段和预设数量的初始分词。
6.根据权利要求5所述的方法,其特征在于,所述基于所述目标文本段的字符顺序和词特征库中各词语的特征信息,对所述目标文本段进行分词,获得初始文本段和预设数量的初始分词之前,还包括:
获取多个样本词语,其中,所述样本词语携带词特征信息;
将所述多个样本词语处理为线性数组的形式,并根据处理后的多个样本词语构建词特征库。
7.根据权利要求5所述的方法,其特征在于,所述基于所述目标文本段的字符顺序和词特征库中各词语的词特征信息,对所述目标文本段进行分词,获得初始文本段和预设数量的初始分词,包括:
基于所述目标文本段的字符顺序,将所述目标文本段和词特征库进行匹配,确定所述目标文本段中的多个候选分词;
根据所述预设数量和所述字符顺序,对所述多个候选分词进行分组,获得至少一个候选分词组,其中,所述候选分词组中的候选分词是连续的;
根据所述词特征信息,计算所述至少一个候选分词组的分词指标;
根据所述分词指标,从所述至少一个候选分词组中确定所述预设数量的初始分词;
从所述目标文本段中删除所述预设数量的初始分词,获得所述初始文本段。
8.根据权利要求1所述的方法,其特征在于,所述预设分词停止条件包括所述目标文本段中的字符均已被分词;所述在达到预设分词停止条件的情况下,获得所述待处理文本对应的分词集合,包括:
在所述目标文本段中的字符均已被分词的情况下,获得所述待处理文本对应的分词集合,其中,所述分词集合包括多个词语。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海金山数字网络科技有限公司,未经珠海金山数字网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310028994.7/1.html,转载请声明来源钻瓜专利网。





