[发明专利]文档比对结果的优化方法、装置、设备以及存储介质在审
| 申请号: | 202211449782.8 | 申请日: | 2022-11-18 |
| 公开(公告)号: | CN115759032A | 公开(公告)日: | 2023-03-07 |
| 发明(设计)人: | 林守彪 | 申请(专利权)人: | 科大讯飞股份有限公司 |
| 主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/30;G06F18/22 |
| 代理公司: | 深圳市威世博知识产权代理事务所(普通合伙) 44280 | 代理人: | 柳芳 |
| 地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文档 结果 优化 方法 装置 设备 以及 存储 介质 | ||
本申请公开了一种文档比对结果的优化方法、装置、设备以及存储介质,文档比对结果的优化方法包括:获取第一文档和第二文档的初始比对结果,初始比对结果中包括若干初始差异项;确定各初始差异项在目标文档中所处的目标片段,目标文档为第一文档或第二文档;基于各目标片段分别与若干预设标签的语义比对结果,从各目标片段中确定目标差异项,目标差异项与各预设标签对应且包含至少一个初始差异项;获取各目标差异项的集合得到第一文档和第二文档之间的优化比对结果。上述方案,能够提高文档比对结果的准确度。
技术领域
本申请涉及人工智能技术领域,特别是涉及一种文档比对结果的优化方法、装置、设备以及存储介质。
背景技术
随着信息化程度不断提高,企业中文档类交付物越来越多,这将消耗大量的人力物力对其进行审查。现有技术中通常是人工查阅不同修改版本的文档,查找不同,再做出相应决策。然而,这需要人工全面阅读不同修改版本的文档,找到不同版本之间的差异之后,查阅差异项的过程中的阅读感也不佳。
发明内容
本申请至少提供一种文档比对结果的优化方法、装置、设备以及存储介质。
本申请第一方面提供了一种文档比对结果的优化方法,包括:获取第一文档和第二文档的初始比对结果,初始比对结果中包括若干初始差异项;确定各初始差异项在目标文档中所处的目标片段,目标文档为第一文档或第二文档;基于各目标片段分别与若干预设标签的语义比对结果,从各目标片段中确定目标差异项,目标差异项与各预设标签对应且包含至少一个初始差异项;获取各目标差异项的集合得到第一文档和第二文档之间的优化比对结果。
其中,语义比对结果包括语义相似度,基于各目标片段分别与若干预设标签的语义比对结果,从各目标片段中确定目标差异项,包括:分别获取各目标片段中的每个字符与各预设标签之间的语义相似度;基于各语义相似度,从目标片段中确定目标差异项。
其中,基于各语义相似度,从目标片段中确定目标差异项,包括:对于每一预设标签,从每一目标片段中确定首个与预设标签的语义相似度大于或等于预设语义相似度的字符,作为与预设标签对应的目标差异项的首字符,以及从每一目标片段中确定尾个与预设标签的语义相似度大于或等于预设语义相似度的字符,作为与预设标签对应的目标差异项的尾字符;每一目标片段中,将首字符、尾字符以及首字符和尾字符之间的字符作为预设标签对应的候选目标差异项;将包含初始差异项的候选目标差异项作为与预设标签对应的目标差异项。
其中,在将包含初始差异项的候选目标差异项作为与预设标签对应的目标差异项之后,方法还包括:判断各目标差异项中每一字符与预设标签是否均大于预设语义相似度;响应于目标差异项中存在与预设标签的语义相似度小于预设语义相似度的目标字符,将与目标字符相邻且朝向目标差异项中的初始差异项一侧的字符作为新的首字符或尾字符。
其中,在基于各目标片段分别与若干预设标签的语义比对结果,从各目标片段中确定目标差异项之前,方法还包括:接收用户从若干标签中选择预设标签的选择指令,标签与文档的使用场景相关;响应于选择指令,将被选择的标签作为预设标签。
其中,在获取各目标差异项的集合得到第一文档和第二文档之间的优化比对结果之后,方法还包括:显示初始比对结果以及优化比对结果,初始比对结果中还包括初始差异项的数量和/或各初始差异项在目标文档中的位置,优化比对结果包括目标差异项的数量和/或各目标差异项在目标文档中的位置。
其中,获取第一文档和第二文档的初始比对结果,包括:获取版式资源和对比资源,版式资源包括待比对的版式信息,比对资源包括各待比对的版式信息对应的比对方式;基于版式信息对第一文档和第二文档进行版式分类,得到各版式信息对应的文本内容;利用各版式信息对应的比对方式,分别对各版式信息对应的文本内容进行比对,得到各版式信息对应的初始差异项;基于各版式信息对应的初始差异项,得到第一文档和第二文档的初始比对结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211449782.8/2.html,转载请声明来源钻瓜专利网。





