[发明专利]一种药品申报文件的对比分析方法、系统和存储介质在审
申请号: | 202110221497.X | 申请日: | 2021-02-27 |
公开(公告)号: | CN112883702A | 公开(公告)日: | 2021-06-01 |
发明(设计)人: | 林加旗;魏巍;包卿;杜懂理 | 申请(专利权)人: | 浙江明度智控科技有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/174;G06F40/18;G16H70/40 |
代理公司: | 杭州合谱慧知识产权代理事务所(特殊普通合伙) 33290 | 代理人: | 张刚 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 药品 申报 文件 对比 分析 方法 系统 存储 介质 | ||
本发明公开了一种药品申报文件的对比分析方法,括如下获取待分析的药品申报文件内表格的各单元格坐标和内容,识别内容一致单元格;获取两表格的最小表格矩阵,所述最小表格矩阵为包含有该表格内所有内容一致单元格的最小矩形表格区域;根据两表格的最小表格矩阵间差异与在对应表格中的位置,获取异常单元格组,所述异常单元格组包括但不限于内容不一致单元格坐标和内容。最终减少呈现给用户的数据异常单元格结果数量,便于用户快速排查发现错误、异常表格。
技术领域
本发明涉及数据处理和分析技术领域,尤其涉及一种药品申报文件的对比分析方法、系统和存储介质。
背景技术
近些年来国家对药企的监管越来越严,出台的法规越来越多,执行也是越来越严格。按照法规要求,药企在申报新药的时候需要提交数量庞大的文档资料,所有提交的文档都必须是真实合规的。如果文档中的内容出现前后不一致等情况,将导致整个产品的合规性得不到满足,企业将被处以整改等强制措施,药品的上市将会受到严重影响。因此企业内会设有专门团队来负责所有文档的审核;若后续出现对实验方法或使用物料的调整,原先审核通过的文档也必需一一修改,因此药品申报文档的审核是件非常细致且极其重要的工作。
在药品申报材料处理工作中,经常需要处理大量的文档,而这些文档中又存在大量表格,这些表格具有相似度高,相互引用、嵌套的情况,同时由于处理工作量大等原因,经常需要多个用户协作进行文档编辑。例如,药企研发机构在准备整理药品申报资料时存在大量文档,文档中存在大量表格。这些表格存在相似度高、相互引用、和嵌套等各类情况。同时,由于这些关联表格由多人人为整理,往往存在对应单元格内容不一致、表格行列丢失、表格行列顺序错乱等各种错误情况。但是由于表格众多,而其分布在大量不同文档中,这就造成后期人为检查的工作量极大,且上述错误情况难以发现,最终直接导致资料错误,合规性需求难以满足,严重拖延了药品申报进度。
发明内容
本发明针对现有技术中的不足,提供了一种药品申报文件的对比分析方法,包括如下步骤:
S1,获取待分析的药品申报文件内表格的各单元格坐标和内容,识别内容一致单元格;
S2,获取两表格的最小表格矩阵,所述最小表格矩阵为包含有该表格内所有内容一致单元格的最小矩形表格区域;
S3,根据两表格的最小表格矩阵间差异与在对应表格中的位置,获取异常单元格组,所述异常单元格组包括但不限于内容不一致单元格坐标和内容,具体包括:当第一表格最小表格矩阵的行列数和第二表格最小表格矩阵的行列相同时,遍历最小表格矩阵的每一单元格,比较两最小表格矩阵对应位置的内容是否相等,若相等则不记录,否则记录为第一异常单元格组;若第一表格最小表格矩阵的行数和列数也相同,则将第一表格转置形成第一转置表格;将第二表格的最小表格矩阵与所述第一转置表格的最小表格矩阵进行比较并识别记录内容不一致单元格作为第二异常单元格组;将第一异常单元格组和第二异常单元格组中内容一致单元格数量较小的作为两表格的异常单元格组。
优选的,所述步骤S2包括:对药品申报文件内各表格结构化数据逐对进行比较,获取两表格中的内容一致单元格的坐标及内容,判断两表格是否存在关联关系,对存在关联关系的两表格进行后续异常单元格组的分析。
优选的,所述步骤S2具体包括:对两表格结构化数据逐对进行比较,获取两表格中的内容一致单元格的坐标及内容;根据内容一致单元格的数量和/或分布位置来判断所述两表格的关联状态。
优选的,述步骤根据内容一致单元格的数量和/或分布位置来判断所述两表格的关联状态,具体包括:获取各表格的内容一致单元格数量和其在表格中的分布位置;获取各表格的最小表格矩阵,所述最小表格矩阵为包含有该表格内所有内容一致单元格的最小矩形表格区域;当内容一致单元格数量大于预设值时,和/或内容一致单元格数量的两倍要大于所在两表格所包含单元格数量之和的预设比例时,和/或内容一致单元格数量大于其所在最小表格矩阵内的单元格总数的预设比例时,判断该两表格为具有关联关系的关联表格对。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江明度智控科技有限公司,未经浙江明度智控科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110221497.X/2.html,转载请声明来源钻瓜专利网。