[发明专利]基于监督学习和文本分类的AC构建方法有效

申请号：	201911321711.8	申请日：	2019-12-19
公开（公告）号：	CN111191029B	公开（公告）日：	2022-11-25
发明（设计）人：	李蔚清;袁伟强	申请（专利权）人：	南京理工大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/30;G06F40/289;G06K9/62;G06F30/27
代理公司：	南京理工大学专利中心 32203	代理人：	封睿
地址：	210094 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于监督学习文本分类 ac 构建方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于监督学习和文本分类的AC构建方法，基于CRF模型对仿真需求文本进行实体抽取；基于SVM模型对仿真需求文本进行实体关系抽取；基于规则和SVM模型对仿真需求文本进行部件精度信息抽取；基于BoW+NBSVM对仿真系统需求文本进行系统标准语句识别；基于改进的非功能需求分类算法进行系统标准语句分类；综合实体关系、部件精度信息、系统标准语句及分类，构建仿真需求文档中的AC。本发明显著提高了构建AC的效率，降低了人工成本，同时使得系统标准的构建更加全面。

技术领域

本发明属于仿真系统可信度评估领域，具体为一种基于监督学习和文本分类的AC构建方法。

背景技术

随着复杂仿真系统的快速发展，仿真系统可信度评估工作逐渐被仿真系统的开发者和使用者所重视。可接受性标准(Acceptability Criteria，AC)是建模与仿真(Modelingsimulation，MS)中确认决策的基础，定义了仿真系统满足于仿真需求或仿真目标的所需要的功能和该功能应当满足的质量要求。Simone Youngblood等人在其论文中提出，可接受性标准分为两大类：代表性标准和系统标准。代表性标准定义了仿真系统所需的功能清单；系统标准描述了仿真系统必须满足的所有其他条件以充分服务于用户的基础功能。当前对于AC的研究与应用工作还是在起步阶段，主要还是依靠人工对仿真需求文本进行归纳总结，抽取仿真需求文本中各个实体、属性及其它们之间的关系。由于仿真需求语句与AC之间可能存在多对多的关系，仅依靠人工进行抽取不仅耗时，而且很难从复杂仿真系统需求文本中抽取出高清晰度的AC。

发明内容

本发明的目的在于提供一种基于监督学习和文本分类的AC构建方法。

实现本发明的技术解决方案为：一种基于监督学习与文本分类的AC构建方法，具体步骤为：

步骤1、将训练语料经过分词与标注后形成的文件输入到CRF模型，把训练好的CRF模型用于待实体识别的仿真需求文本中，即可得到仿真需求文本中实体。

步骤2、获得训练语料中实体对所在句子的特征向量，并将该特征向量与类别标签训练SVM模型，将训练好的SVM模型用于仿真需求文本的实体关系识别。

步骤3、提取训练语料中实体对所在句子的特征向量，训练SVM分类模型；将待识别的仿真需求文本根据阈值规则和距离规则从该语句中抽取出阈值与性能指标，其次将部件实体与性能指标、性能指标与阈值两两配对形成实体对，构建实体对所在句子的特征向量并输入到各自SVM分类模型中，获得抽取结果。

步骤4、首先训练语料进行数据预处理，其次确定文本特征的表达方式，基于此训练分类模型，并将该分类模型应用于系统标准语句识别中。

步骤5、基于步骤4的系统标准语句识别结果，将系统标准语句进行关键词提取，计算关键词与特征词的语义相似度，并依据相似度大小将关键词划分到最近似类，最后使用加权投票方法确定具体分类。

本发明与现有技术相比，其显著优点为：1)自动对包含系统标准的语句进行识别与分类，提高了AC构建的效率；2)使用规则和SVM相结合的方法提取部件实体、性能指标和阈值，提高了抽取部件性能信息的准确率。

附图说明

图1为本发明基于监督学习和文本分类的AC构建方法的流程图。

图2为本发明实体抽取的算法流程图。