[发明专利]文档比对方法、装置、存储介质、电子设备有效
| 申请号: | 202010102751.X | 申请日: | 2020-02-19 |
| 公开(公告)号: | CN111353289B | 公开(公告)日: | 2023-07-25 |
| 发明(设计)人: | 韩志刚;于广伟;宋洋 | 申请(专利权)人: | 东软集团股份有限公司 |
| 主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F16/31;G06F16/33 |
| 代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 魏嘉熹 |
| 地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文档 方法 装置 存储 介质 电子设备 | ||
本公开涉及一种文档比对方法、装置、存储介质、电子设备,所述方法包括:获取第一文档和第二文档中的文字内容;确定所述第一文档的文字内容和所述第二文档的文字内容之间的共通数据块,得到属于所述第一文档的第一共通数据块序列以及属于所述第二文档的第二共通数据块序列;根据所述第一文档中文字属性信息的索引,确定所述第一共通数据块序列的文字属性信息,并根据所述第二文档中文字属性信息的索引,确定所述第二共通数据块序列的文字属性信息;对比所述第一共通数据块序列的文字属性信息与所述第二共通数据块序列的文字属性信息,得到所述第一文档和所述第二文档之间的所述共通数据块的属性差异信息。
技术领域
本公开涉及文档内容处理领域,具体地,涉及一种文档比对方法、装置、存储介质、电子设备。
背景技术
在日常应用中,文档的比较是一个存在于很多场景的需求,例如对两篇文章进行对比,对两个脚本文件中的代码进行对比等等。通常,文档的比较是为了寻找出不同文档之间的相关性和差异,从而简化后续的处理流程,降低工作量。
相关技术中,在确定多个文档内容之间的差异过程中所使用的方法对内存资源还有着较高的需求,同时需要的时间也较长,增加了电力消耗。
发明内容
本公开的目的是提供一种文档比对方法、装置、存储介质、电子设备,以解决相关技术问题。
为了实现上述目的,本公开实施例的第一方面,提供一种文档比对方法,包括:
获取第一文档和第二文档中的文字内容;
确定所述第一文档的文字内容和所述第二文档的文字内容之间的共通数据块,得到属于所述第一文档的第一共通数据块序列以及属于所述第二文档的第二共通数据块序列;
根据所述第一文档中文字属性信息的索引,确定所述第一共通数据块序列的文字属性信息,并根据所述第二文档中文字属性信息的索引,确定所述第二共通数据块序列的文字属性信息;
对比所述第一共通数据块序列的文字属性信息与所述第二共通数据块序列的文字属性信息,得到所述第一文档和所述第二文档之间的所述共通数据块的属性差异信息。
可选地,所述第一文档中文字属性信息的索引是通过如下方式建立的:
将所述第一文档的文字内容按照预设粒度层级进行划分;
针对所述预设粒度层级中的每一层粒度,对属于同一层粒度的文字内容的文字属性信息依次进行编号;
针对最小粒度的文字内容的文字属性信息,根据该文字属性信息对应的各层粒度的编号,以及所述第一文档中从首字符到该文字内容的累计字符数生成该文字属性信息的索引。
可选地,所述预设粒度层级包括:段落粒度层、行粒度层、子行粒度层;
所述针对所述预设粒度层级中的每一层粒度,对属于同一层粒度的文字内容的文字属性信息依次进行编号,包括:
针对按段落粒度层划分文字内容得到的各段落文字块,对各所述段落文字块的文字属性信息依次进行编号;
针对按行粒度层划分文字内容得到的各行文字块,对各所述行文字块的文字属性信息依次进行编号;
针对按子行粒度层划分文字内容得到的各子行文字块,对各所述子行文字块的文字属性信息依次进行编号。
可选地,所述针对最小粒度的文字内容的文字属性信息,根据该文字属性信息对应的各层粒度的编号,以及所述第一文档中从首字符到该文字内容的累计字符数生成该文字属性信息的索引,包括:
针对每一子行文字块,将该子行文字块对应的编号、该子行文字块所属的行文字块对应的编号、所述行文字块所属的段落文字块对应的编号、以及所述第一文档中从首字符到该子行文字块的累计字符数组成一个元组作为该子行文字块的索引。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010102751.X/2.html,转载请声明来源钻瓜专利网。





