首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]文本处理方法及装置在审

申请号：	202310028994.7	申请日：	2023-01-09
公开（公告）号：	CN115994535A	公开（公告）日：	2023-04-21
发明（设计）人：	王焜;余赢超;王景峰	申请（专利权）人：	珠海金山数字网络科技有限公司
主分类号：	G06F40/289	分类号：	G06F40/289;G06F40/30
代理公司：	北京智信禾专利代理有限公司 11637	代理人：	金鹏
地址：	519000 广东省珠海市高新区唐家湾镇前岛环路325号102室***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本处理方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种文本处理方法，其特征在于，包括：

提取待处理文本中的目标文本段；

基于所述目标文本段的字符顺序，对所述目标文本段进行分词，获得初始文本段和预设数量的初始分词，其中，所述初始文本段为所述目标文本段中除所述初始分词外剩余的文本段；

将所述初始分词中的指定分词与所述初始文本段进行合并，获得更新后的目标文本段，并返回执行所述基于所述目标文本段的字符顺序，对所述目标文本段进行分词的步骤；

在达到预设分词停止条件的情况下，获得所述待处理文本对应的分词集合。

2.根据权利要求1所述的方法，其特征在于，所述提取待处理文本中的目标文本段，包括：

根据所述待处理文本的字符顺序，将所述待处理文本和特定领域词库进行匹配，确定所述待处理文本中的目标分词，其中，所述特定领域词库包括多个特定领域词语；

以所述目标分词为分割点，对所述待处理文本进行分割，获得所述目标文本段。

3.根据权利要求2所述的方法，其特征在于，所述以所述目标分词为分割点，对所述待处理文本进行分割，获得所述目标文本段，包括：

以所述目标分词为分割点，对所述待处理文本进行分割，获得候选文本段；

对所述候选文本段进行字符识别，确定所述候选文本段中指定类型的字符；

将所述指定类型的字符从所述候选文本段中删除，获得所述目标文本段，其中，所述指定类型包括字母、数字、符号中的至少一种。

4.根据权利要求3所述的方法，其特征在于，所述在达到预设分词停止条件的情况下，获得所述待处理文本对应的分词集合之后，还包括：

基于所述待处理文本的字符顺序，对所述目标分词、所述指定类型的字符和所述分词集合进行排序，获得文本处理结果。

5.根据权利要求1所述的方法，其特征在于，所述基于所述目标文本段的字符顺序，对所述目标文本段进行分词，获得初始文本段和预设数量的初始分词，包括：

基于所述目标文本段的字符顺序和词特征库中各词语的词特征信息，对所述目标文本段进行分词，获得初始文本段和预设数量的初始分词。

6.根据权利要求5所述的方法，其特征在于，所述基于所述目标文本段的字符顺序和词特征库中各词语的特征信息，对所述目标文本段进行分词，获得初始文本段和预设数量的初始分词之前，还包括：

获取多个样本词语，其中，所述样本词语携带词特征信息；

将所述多个样本词语处理为线性数组的形式，并根据处理后的多个样本词语构建词特征库。

7.根据权利要求5所述的方法，其特征在于，所述基于所述目标文本段的字符顺序和词特征库中各词语的词特征信息，对所述目标文本段进行分词，获得初始文本段和预设数量的初始分词，包括：

基于所述目标文本段的字符顺序，将所述目标文本段和词特征库进行匹配，确定所述目标文本段中的多个候选分词；

根据所述预设数量和所述字符顺序，对所述多个候选分词进行分组，获得至少一个候选分词组，其中，所述候选分词组中的候选分词是连续的；

根据所述词特征信息，计算所述至少一个候选分词组的分词指标；

根据所述分词指标，从所述至少一个候选分词组中确定所述预设数量的初始分词；

从所述目标文本段中删除所述预设数量的初始分词，获得所述初始文本段。

8.根据权利要求1所述的方法，其特征在于，所述预设分词停止条件包括所述目标文本段中的字符均已被分词；所述在达到预设分词停止条件的情况下，获得所述待处理文本对应的分词集合，包括：

在所述目标文本段中的字符均已被分词的情况下，获得所述待处理文本对应的分词集合，其中，所述分词集合包括多个词语。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于珠海金山数字网络科技有限公司，未经珠海金山数字网络科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202310028994.7/1.html，转载请声明来源钻瓜专利网。

上一篇：一种用于草地样方覆盖度数据采集的一体化系统
下一篇：用于解决实体重叠与实体嵌套的多任务学习方法及系统

同类专利

专利分类

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top