[发明专利]一种识别版记的方法、装置、电子设备及存储介质在审

专利信息
申请号: 202110882037.1 申请日: 2021-08-02
公开(公告)号: CN115701610A 公开(公告)日: 2023-02-10
发明(设计)人: 辛洋 申请(专利权)人: 珠海金山办公软件有限公司;北京金山办公软件股份有限公司;武汉金山办公软件有限公司
主分类号: G06F40/279 分类号: G06F40/279;G06F40/18
代理公司: 北京博思佳知识产权代理有限公司 11415 代理人: 林祥
地址: 519015 广东省珠海市高新*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 识别 方法 装置 电子设备 存储 介质
【说明书】:

发明公开了一种识别版记的方法、装置、电子设备及存储介质。所述方法包括:获取待识别文档;遍历所述待识别文档的段落,将包含关键字符集合中任一关键字符的段落确定为版记内容,并确定所述版记内容对应的版记类型;收集所述待识别文档中确定的版记内容得到版记内容集合,基于所述版记内容集合确定候选版记,其中,所述候选版记中包含所述版记内容和所述版记内容所对应的版记类型,所述候选版记为至少一个,所述版记内容为一个或者多个;遍历所述候选版记,并判断所述候选版记中版记内容所对应的版记类型,是否为预设版记类型;如果是所述预设版记类型,则将所述候选版记确定为所述待识别文档的版记。

技术领域

本发明涉及计算机软件应用技术领域,特别是涉及一种识别版记的方法、装置、电子设备及存储介质。

背景技术

目前,用户在使用文档编辑软件对文档进行编辑时,可能需要编辑部分排版格式固定的文档。例如,行政公文。在行政公文中,对于版记的内容存在固定的排版格式,例如,版记中的主题词需要用3号黑体字,居左顶格标识,后标全角冒号,词目用3号小标宋体字。

用户针对文档中的具有固定排版格式的内容,例如版记,往往需要手动调整排版格式,不仅操作繁琐,还容易出现错误。

发明内容

本发明实施例的目的在于提供一种识别版记的方法、装置、电子设备及存储介质,以解决用户手动操作的繁琐,实现自动识别文档中版记的功能,方便自动调整版记的排版格式。具体技术方案如下所示。

本发明实施例提供了一种识别版记的方法,包括:

获取待识别文档;

遍历所述待识别文档的段落,将包含关键字符集合中任一关键字符的段落确定为版记内容,并确定所述版记内容对应的版记类型;

收集所述待识别文档中确定的版记内容得到版记内容集合,基于所述版记内容集合确定候选版记,其中,所述候选版记中包含所述版记内容和所述版记内容所对应的版记类型,所述候选版记为至少一个,所述版记内容为一个或者多个;

遍历所述候选版记,并判断所述候选版记中版记内容所对应的版记类型,是否为预设版记类型;

如果是所述预设版记类型,则将所述候选版记确定为所述待识别文档的版记。

可选地,所述确定所述版记内容对应的版记类型,包括:

根据所述版记内容包含的关键字符确定段落初始版记类型,其中,所述段落初始版记类型是与所述版记内容一一对应的版记类型,所述关键字符集合中任一关键字符对应于一个版记类型。

可选地,在确定所述版记内容对应的版记类型之后,收集所述待识别文档中确定的版记内容得到版记内容集合之前,所述方法还包括:

再次遍历所述待识别文档的段落,根据预设段落规则确定当前遍历的段落对应的段落备选版记类型。

可选地,所述根据预设段落规则确定当前遍历的段落对应的段落备选版记类型,包括:

基于所述当前遍历的段落与上一段落的段落初始版记类型确定情况,根据所述预设段落规则确定所述当前遍历的段落对应的段落备选版记类型。

可选地,所述根据所述预设段落规则确定所述当前遍历的段落对应的段落备选版记类型,包括:

在所述当前遍历的段落对应的段落初始版记类型为第一目标版记类型的情况下,将所述当前遍历的段落对应的段落初始版记类型,确定为所述当前遍历的段落对应的段落备选版记类型;

在所述当前遍历的段落没有被确定为版记内容,且所述上一段落对应的段落初始版记类型为第二目标版记类型的情况下,将所述上一段落对应的段落初始版记类型,确定为所述当前遍历的段落对应的段落备选版记类型;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海金山办公软件有限公司;北京金山办公软件股份有限公司;武汉金山办公软件有限公司,未经珠海金山办公软件有限公司;北京金山办公软件股份有限公司;武汉金山办公软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110882037.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top