[发明专利]一种自动化标检方法及系统有效
申请号: | 201910870542.7 | 申请日: | 2019-09-16 |
公开(公告)号: | CN110647628B | 公开(公告)日: | 2022-09-23 |
发明(设计)人: | 郭泽;焦倩倩;赵文浩 | 申请(专利权)人: | 北京电子工程总体研究所 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京正理专利代理有限公司 11257 | 代理人: | 付生辉 |
地址: | 100854*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动化 方法 系统 | ||
1.一种自动化标检方法,其特征在于,包括以下步骤:
S1、获取训练文本和配置文件,并提取训练文本中的特征;
S2、根据训练文本的特征和分类算法构建段落识别模型;
进一步地,对于任意段落,假设其具备类型k的特征,对于其属于不同类型的概率可进一步分解为:
S3、根据训练文本和训练算法对所述段落识别模型进行训练并调整所述段落识别模型的参数;
S4、获取待标检文件并提取待标检文件的特征;
S5、利用段落识别模型对所述待标检文件的特征进行识别,得到段落识别结果;
S6、利用所述段落识别结果与配置文件进行比对,得到标检结果;
所述特征包括格式特征和文本特征;
所述根据训练文本和训练算法对所述段落识别模型进行训练进一步包括:
将所述训练文本中的特征作为段落识别模型的输入;
通过训练算法迭代训练段落识别模型,将识别结果与训练文本中预先标注的段落类型信息进行比对,确定段落识别模型的参数;
所述利用段落识别模型对所述待标检文件中的特征进行识别进一步包括:
利用识别算法处理待标检文件,将待标检文件中的段落识别为图表段落或非图表段落;
将待标检文件中的特征输入段落识别模型,获取所述段落识别模型输出的概率最高的至少一个段落识别结果;
对于待标检文件中的非图表段落,从所述至少一个段落识别结果中选取与执行所述识别算法处理待标检文件时获取的识别结果一致的且概率最高的段落识别结果作为该段落的识别结果;
标检方法进一步包括有:
用于利用识别算法处理待标检文件,将待标检文件中的段落识别为图表段落或非图表段落;将待标检文件中的特征输入段落识别模型,获取所述段落识别模型输出的概率最高的至少一个段落识别结果;
用于对于待标检文件中的非图表段落,从所述至少一个段落识别结果中选取与执行所述识别算法处理待标检文件时获取的识别结果一致的且概率最高的段落识别结果作为该段落的识别结果。
2.根据权利要求1所述的自动化标检方法,其特征在于,所述自动化标检方法进一步包括:
记录比对得到的误差信息,根据误差信息生成错误提示字串,并在待标检文件对应的位置显示错误提示字串。
3.根据权利要求1所述的自动化标检方法,其特征在于,所述分类算法为支持向量机、人工神经网络、朴素贝叶斯算法或最近邻算法。
4.根据权利要求1所述的自动化标检方法,其特征在于,所述训练算法为退火算法、蚁群算法或遗传算法。
5.一种自动化标检系统,其特征在于,所述标检系统包括显示模块和逻辑模块,所述逻辑模块进一步包括:
训练模块,用于获取训练文本和配置文件,并提取训练文本的特征;构建并训练段落识别模型,并调整所述段落识别模型的参数;输出参数确定的段落识别模型至标检模块;
进一步地,对于任意段落,假设其具备类型k的特征,对于其属于不同类型的概率可进一步分解为:
标检模块,用于获取待标检文件并提取待标检文件的特征;利用段落识别模型对所述待标检文件的特征进行识别,得到段落识别结果;利用所述段落识别结果与配置文件进行比对,得到标检结果;
所述训练模块进一步包括:
模型训练单元,用于将所述训练文本中的特征作为段落识别模型的输入;通过训练算法迭代训练段落识别模型,将识别结果与训练文本中预先标注的段落类型信息进行比对,确定段落识别模型的参数;
所述利用段落识别模型对所述待标检文件中的特征进行识别进一步包括:
利用识别算法处理待标检文件,将待标检文件中的段落识别为图表段落或非图表段落;
将待标检文件中的特征输入段落识别模型,获取所述段落识别模型输出的概率最高的至少一个段落识别结果;
对于待标检文件中的非图表段落,从所述至少一个段落识别结果中选取与执行所述识别算法处理待标检文件时获取的识别结果一致的且概率最高的段落识别结果作为该段落的识别结果;
所述标检模块进一步包括有:
段落分类单元,用于利用识别算法处理待标检文件,将待标检文件中的段落识别为图表段落或非图表段落;将待标检文件中的特征输入段落识别模型,获取所述段落识别模型输出的概率最高的至少一个段落识别结果;
识别融合单元,用于对于待标检文件中的非图表段落,从所述至少一个段落识别结果中选取与执行所述识别算法处理待标检文件时获取的识别结果一致的且概率最高的段落识别结果作为该段落的识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京电子工程总体研究所,未经北京电子工程总体研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910870542.7/1.html,转载请声明来源钻瓜专利网。