[发明专利]一种处理文本的方法和装置在审

专利信息
申请号: 202111047593.3 申请日: 2021-09-08
公开(公告)号: CN113742485A 公开(公告)日: 2021-12-03
发明(设计)人: 李鹏;袁平广;黄英凡;李勇;包勇军;颜伟鹏 申请(专利权)人: 北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F16/33;G06F16/31
代理公司: 中原信达知识产权代理有限责任公司 11219 代理人: 郝红玉;郭晗
地址: 100176 北京市北京经济技术*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 处理 文本 方法 装置
【说明书】:

发明公开了一种处理文本的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:能够利用对多个待处理的片段文本块进行聚类,判断片段文本块之间是否具有合并关系,并基于合并关系合并文本块,生成具有合理顺序的目标文本;克服了利用有监督机器学习方法存在的消耗人力成本和计算资源较高的问题,提高了处理文本的效率和准确率。

技术领域

本发明涉及计算机技术领域,尤其涉及一种处理文本的方法和装置。

背景技术

随着图像处理技术的飞速发展,基于图像的文本识别技术得到广泛应用,例如:利用OCR(Optical Character Recognition,光学字符识别)技术识别图像文档中包含的文本;在利用OCR技术处理图像文档时,通常基于一个图像文档生成多个文本段;而多个文本段是处于无序的状态。

目前,可以利用有监督机器学习方法,通过对各个文本段进行标注和训练,生成符合阅读顺序的连续文本,由于该方法需要获取训练所需的样本数据、为样本数据进行标注等,提高了处理文本的人力成本和计算资源,并且在样本数量不足的情况下,存在生成连续文本的准确率降低的问题。

发明内容

有鉴于此,本发明实施例提供一种处理文本的方法和装置,能够利用对多个待处理的片段文本块进行聚类,判断片段文本块之间是否具有合并关系,并基于合并关系合并文本块,生成具有合理顺序的目标文本;克服了利用有监督机器学习方法存在的消耗人力成本和计算资源较高的问题,提高了处理文本的效率和准确率。

为实现上述目的,根据本发明实施例的一个方面,提供了一种处理文本的方法,其特征在于,包括:确定待处理的多个片段文本块;对多个所述片段文本块进行聚类;针对聚类的结果所指示的包含多个所述片段文本块的聚类文本块,执行在所述聚类文本块中查找满足预设合并策略的多个片段文本块,并对多个满足预设合并策略的片段文本块进行合并;根据合并的结果,生成目标文本。

可选地,所述处理文本的方法,其特征在于,所述对多个所述片段文本块进行聚类,包括:利用预设的膨胀系数,对每一个所述片段文本块进行膨胀;根据每一个所述片段文本块的膨胀结果,查找具有连通关系的多个片段文本块;将具有连通关系的多个所述片段文本块聚类成一个聚类文本块。

可选地,所述处理文本的方法,其特征在于,进一步包括:

获取每一个所述片段文本块的特征坐标;基于每一个所述片段文本块的特征坐标,查找具有对齐关系的多个片段文本块;所述利用预设的膨胀系数,对每一个所述片段文本块进行膨胀,包括:利用第一膨胀系数,对具有对齐关系的每一个片段文本块进行膨胀;利用第二膨胀系数,对剩余的每一个片段文本块进行膨胀。

可选地,所述处理文本的方法,其特征在于,所述对多个所述片段文本块进行聚类,进一步包括:在存在多个聚类文本块的情况下,进行迭代操作,将具有连通关系的所述聚类文本块进行聚类,生成新的聚类文本块。

可选地,所述处理文本的方法,其特征在于,

进一步包括:根据聚类的结果生成聚类树;基于所述聚类树查找满足预设合并策略的多个片段文本块,并执行对满足预设合并策略的多个片段文本块进行合并的步骤。

可选地,所述处理文本的方法,其特征在于,根据聚类的结果生成聚类树,包括:为所述聚类文本块包含的各个片段文本块构建对应的叶子节点;基于所述聚类文本块和所述叶子节点,构建上级节点以及根节点;将不属于任何一个所述聚类文本块的片段文本块对应的叶子节点关联到所述根节点。

可选地,所述处理文本的方法,其特征在于,

基于每一个所述片段文本块的特征坐标,查找具有对齐关系的多个片段文本块,包括:将各个所述片段文本块基于所述特征坐标包含的垂直坐标进行排序;针对每一个所述片段文本块,执行步骤A1-A2:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司,未经北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111047593.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top