[发明专利]多页同类文档碎片的分组方法有效
申请号: | 201710209666.1 | 申请日: | 2017-03-31 |
公开(公告)号: | CN106991082B | 公开(公告)日: | 2020-06-26 |
发明(设计)人: | 邢楠;刘军 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06F40/10 | 分类号: | G06F40/10;G06F40/205;G06K9/00;G06K9/62 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 燕肇琪 |
地址: | 710048*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 多页同类文档碎片的分组方法,包括以下步骤:步骤1、提取文档的最左边碎片和最右边碎片,并确定碎片的分组数量;步骤2、将文档的最左边碎片和最右边碎片进行分组对应;步骤3、将文档的中间部分碎片划分为密集碎片和非密集碎片;步骤4、对非密集碎片进行分组;步骤5、对密集碎片进行分组。基于文档最左边碎片和最右边碎片中文字的布局特性,准确获得分组的数量;同时,根据段落文字的相关性以及文字在文档不同区域的特点,将最左边碎片和最右边碎片进行对应,将碎片按照所处区域进行分组,解决了现有技术中存在的同类文档碎片分组困难、分组准确率低的问题。 | ||
搜索关键词: | 同类 文档 碎片 分组 方法 | ||
【主权项】:
多页同类文档碎片的分组方法,其特征在于,包括以下步骤:步骤1、提取文档的最左边碎片和最右边碎片,并确定碎片的分组数量;步骤2、将文档的最左边碎片和最右边碎片进行分组对应;步骤3、将文档的中间部分碎片划分为密集碎片和非密集碎片;步骤4、对非密集碎片进行分组;步骤5、对密集碎片进行分组。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710209666.1/,转载请声明来源钻瓜专利网。