[发明专利]一种自动化标检方法及系统有效
申请号: | 201910870542.7 | 申请日: | 2019-09-16 |
公开(公告)号: | CN110647628B | 公开(公告)日: | 2022-09-23 |
发明(设计)人: | 郭泽;焦倩倩;赵文浩 | 申请(专利权)人: | 北京电子工程总体研究所 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京正理专利代理有限公司 11257 | 代理人: | 付生辉 |
地址: | 100854*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动化 方法 系统 | ||
本发明提供一种自动化标检方法及系统,该自动化标检方法包括以下步骤:S1、获取训练文本和配置文件,并提取训练文本中的特征;S2、根据训练文本的特征和分类算法构建段落识别模型;S3、根据训练文本和训练算法对所述段落识别模型进行训练并调整所述段落识别模型的参数;S4、获取待标检文件并提取待标检文件的特征;S5、利用段落识别模型对所述待标检文件的特征进行识别,得到段落识别结果;S6、利用所述段落识别结果与配置文件进行比对,得到标检结果。通过本发明提供的自动化标检方法可实现对文档的全自动标检,大幅提升标检效率和质量。
技术领域
本发明涉及文本分类领域,特别是涉及一种自动化标检方法及系统。
背景技术
文档是用户与产品之间最直接的桥梁,它有助于软件人员设计程序,有助于管理人员监督和管理产品,有助于维护人员进行有效的修改和改进,更是用户对产品功能、使用方式等各方面进行了解的最主要方式,其质量十分重要。在当今时代,人工智能的飞速发展,带来了对文档智能处理的极大需求。研试文件、设计文件、软件文件等等一系列文档贯穿整个产品周期,其质量的好坏对产品的研制、试验等过程有着极其重要甚至决定性作用。同时,文档作为向用户展示成果的最直接窗口,其质量更是反映了一个企业的文化。一份完美的文档能够让人看出企业工作的严谨态度,而一份错漏百出的文档甚至会令用户失去对企业的信心。
文档的质量已经引起多方的重视,对文档质量开展的各类评审、审查等工作使文档的质量大幅提高。然而目前现有技术中对文档的格式、内容的审查均完全依靠人工进行审查,审查效率不高,且受审查人水平、劳累程度等主观因素影响较大。文档的质量即使经过审查,也往往出现质量参差不齐的情况。
因此,为了克服现有技术存在的技术缺陷,需要提供一种新型的自动化标检方法及系统。
发明内容
本发明的目的之一是提供一种自动化标检方法,实现对文档的全自动标检,大幅提升标检效率和质量。
为了解决上述问题,本发明第一方面提供一种自动化标检方法,包括以下步骤:
S1、获取训练文本和配置文件,并提取训练文本中的特征;
S2、根据训练文本的特征和分类算法构建段落识别模型;
S3、根据训练文本和训练算法对所述段落识别模型进行训练并调整所述段落识别模型的参数;
S4、获取待标检文件并提取待标检文件的特征;
S5、利用段落识别模型对所述待标检文件的特征进行识别,得到段落识别结果;
S6、利用所述段落识别结果与配置文件进行比对,得到标检结果。
此外,优选地方案为,所述自动化标检方法进一步包括:记录比对得到的误差信息,根据误差信息生成错误提示字串,并在待标检文件对应的位置显示错误提示字串。
此外,优选地方案为,所述特征包括格式特征和文本特征。
此外,优选地方案为,所述分类算法为支持向量机、人工神经网络、朴素贝叶斯算法或最近邻算法。
此外,优选地方案为,所述训练算法为退火算法、蚁群算法或遗传算法。
此外,优选地方案为,所述根据训练文本和训练算法对所述段落识别模型进行训练进一步包括:将所述训练文本中的特征作为段落识别模型的输入;通过训练算法迭代训练段落识别模型,将识别结果与训练文本中预先标注的段落类型信息进行比对,确定段落识别模型的参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京电子工程总体研究所,未经北京电子工程总体研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910870542.7/2.html,转载请声明来源钻瓜专利网。