[发明专利]基于监督学习和文本分类的AC构建方法有效
申请号: | 201911321711.8 | 申请日: | 2019-12-19 |
公开(公告)号: | CN111191029B | 公开(公告)日: | 2022-11-25 |
发明(设计)人: | 李蔚清;袁伟强 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30;G06F40/289;G06K9/62;G06F30/27 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 封睿 |
地址: | 210094 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 监督 学习 文本 分类 ac 构建 方法 | ||
1.一种基于监督学习和文本分类的AC构建方法,其特征在于,包括以下步骤:
步骤1、基于CRF模型对仿真需求文本进行实体抽取;
步骤2、基于SVM模型对仿真需求文本进行实体关系抽取;
步骤3、基于规则和SVM模型对仿真需求文本进行部件精度信息抽取;
步骤4、基于BoW+NBSVM对仿真系统需求文本进行系统标准语句识别;
步骤5、基于改进的非功能需求分类算法进行系统标准语句分类;
步骤6、综合实体关系、部件精度信息、系统标准语句及分类,构建仿真需求文档中的AC;
步骤1中,将训练语料经过分词与标注后形成的文件输入到CRF模型,训练CRF模型对仿真需求文本进行实体识别,具体过程如下:
步骤1.1:CRF模型训练阶段,由与待AC构建的仿真需求文本同类别的半实物仿真系统需求文档组成训练语料,首先将训练语料进行分词、词性标注、词边界标注、指示词标注、特征词标注和实体标注,并生成CRF模型输入文件;接下来使用CRF++对该CRF模型输入文件进行迭代,生成CRF模型;
步骤1.2:实体识别阶段,将待识别的仿真需求文本进行分词词性标注、词边界标注、指示词标注、特征词标注,生成CRF模型输入文件,并将生成CRF模型输入文件输入到步骤1.1中训练好的CRF模型,即得到待识别的仿真需求文本中的部件实体、模型实体和能力实体;
步骤2中,获取训练语料中第一实体对所在句子的第一特征向量,并将第一特征向量与关系类别输入到SVM模型,训练SVM模型对仿真需求文本进行实体关系提取,具体步骤如下:
步骤2.1:SVM分类模型训练阶段,首先将训练语料中每条语句的实体两两组合,形成第一实体对;接下来提取第一实体对所在句子的特征,即第一实体对本身的特征、第一实体对所在句子特征和核心谓词特征,此过程由哈工大LTP工具完成,并将这些特征形成第一特征向量;接着将第一特征向量与其分类标签输入到SVM分类模型,得到训练好的SVM分类模型;
步骤2.2:实体关系抽取阶段,首先将待进行实体关系抽取的仿真需求文本中包含的两个及以上实体的语句抽取出来,然后将语句中的实体两两配对组成第一实体对,提取第一实体对所在句子的特征,即第一实体对本身的特征、第一实体对所在句子特征和核心谓词特征,并形成第一特征向量,接着将第一特征向量输入到步骤2.1中训练好的SVM分类模型,即得到实体之间的关系,即部件实体、模型实体和能力实体之间的三元组关系;
步骤3中,提取训练语料中第二、三实体对所在句子的特征向量,训练SVM分类模型,将待识别的仿真需求文本根据阈值规则和距离规则从该语句中抽取出阈值与性能指标,将部件实体与性能指标、性能指标与阈值两两配对形成第二、三实体对,构建第二、三实体对所在句子的特征向量,输入到各自SVM分类模型中,抽取部件精度信息,具体步骤如下:
步骤3.1:训练阶段,将训练语料中的部件实体与性能指标组成第二实体对,并将第二实体对所在句子的特征形成第二特征向量,将第二特征向量输入SVM模型,形成部件实体与性能指标的SVM分类模型;将训练语料中的性能指标与阈值组成第三实体对,并将第三实体对所在句子的特征形成第三特征向量,将第三特征向量输入SVM模型,形成性能指标与阈值的SVM分类模型;
部件实体与性能指标的SVM分类模型目的是判断语句中的部件实体与性能指标是否存在关系,存在关系则为“1”,不存在关系则为“0”;性能指标与阈值的SVM分类模型目的是判断语句中的性能指标与阈值是否存在关系,存在关系则为“1”,不存在关系则为“0”;
步骤3.2:部件精度信息抽取阶段,首先从待进行部件精度信息抽取的仿真需求文本中提取所有包含部件实体的语句,将该语句进行去停用词处理,并根据阈值规则抽取该语句中的阈值,根据位置规则抽取性能指标的候选词,组成部件实体、性能指标实体对和性能指标、阈值实体对;然后对部件实体、性能指标实体对与性能指标实体、阈值实体对形成各自所在语句的特征向量,此过程由哈工大LTP工具完成,将该特征向量分别输入到步骤3.1中训练好的部件实体与性能指标SVM分类模型和性能指标与阈值SVM分类模型中,如果输出都为1,则表示该部件实体、性能指标及阈值之间是存在关系的,从而获得部件实体、性能指标及阈值三元组关系;
步骤5中,对识别的系统标准语句进行关键词提取,计算关键词与特征词的语义相似度,并依据相似度大小将关键词划分到最近似类,最后使用加权投票方法确定具体分类,具体步骤如下:
步骤5.1:首先使用HanLP工具对步骤4中识别的包含系统标准的语句进行关键词抽取,每个语句存在多个关键词;
步骤5.2:其次利用词林与词向量融合的词语相似度计算方法,计算5.1中的关键词与七类系统标准的常用特征词之间的语义相似度;
步骤5.3:最后依据关键词与特征词的相似度大小将关键词划分到最近似类,由于每个特征词拥有不同的权重,最终对语句中的所有关键词使用加权投票方式将系统标准语句划分到具体类别,从而得到系统标准语句的具体分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911321711.8/1.html,转载请声明来源钻瓜专利网。