[发明专利]一种面向焊接工艺文本的工艺知识要素抽取方法在审
| 申请号: | 202211174510.1 | 申请日: | 2022-09-26 |
| 公开(公告)号: | CN115577709A | 公开(公告)日: | 2023-01-06 |
| 发明(设计)人: | 王美清;郑宇航;段金健 | 申请(专利权)人: | 北京航空航天大学 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/247;G06F16/35;G06N3/04;G06N3/08;G06Q50/04 |
| 代理公司: | 北京慧泉知识产权代理有限公司 11232 | 代理人: | 王顺荣;唐爱华 |
| 地址: | 100191*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 面向 焊接 工艺 文本 知识 要素 抽取 方法 | ||
1.一种面向焊接工艺文本的工艺知识要素抽取方法,其特征在于:具体步骤如下:
步骤一:根据焊接工艺手册、焊接工艺卡片的工艺文本信息确定在焊接工艺中需要识别的工艺要素,将工艺要素作为属性,按照自身的含义进行分类,分为7类焊接工艺知识要素;
步骤二:建立面向焊接工艺专业语料的标注规则,采用“BMES”标注准则,依据字符在工艺要素实体中的位置,将7类焊接工艺知识要素分为29个子类,对焊接工艺文本中每个字符进行标注,完成焊接工艺语料库的构建;将构建好的语料库划分为训练集和测试集;
步骤三:使用步骤二划分的数据集训练焊接工艺知识要素抽取模型,模型以焊接工艺文本为输入,对应的标注用于计算损失函数,以优化模型的训练,模型输出为输入的焊接工艺文本中每个字符的类别;模型的训练包括前向过程和反向传播,前向过程将数据输入到模型中,得到输出结果,并计算当前结果的损失函数;反向传播计算损失函数的梯度,并不断迭代以使得损失函数取到局部或全局最小值;在损失函数收敛后,存储之后每次迭代中的模型参数;
步骤四:使用步骤二构建的测试集,对步骤三存储的每个模型采用准确率p,召回率r、F1指数进行定量评估,选取最优模型;
步骤五:将待抽取的焊接工艺文本输入到步骤四得到的最优模型中,得到待抽取的焊接工艺文本的各焊接工艺知识要素。
2.根据权利要求1所述的一种面向焊接工艺文本的工艺知识要素抽取方法,其特征在于:在步骤一中所述的“焊接工艺知识要素的类别”,是指焊接方法、焊接母材、焊接材料、焊接坡口、焊接接头、焊接环境及焊接参数;焊接方法包括氩弧焊、埋弧焊方法;焊接母材为被焊接材料的种类、理化性质;焊接材料为焊剂、焊丝辅材的种类及理化性质;焊接坡口和焊接接头是焊接过程在何种位置进行;焊接环境是焊接过程中是否需要保护气体,以及何种保护气体;焊接参数包括焊接速度、电流及电压。
3.根据权利要求2所述的一种面向焊接工艺文本的工艺知识要素抽取方法,其特征在于:在步骤一中,进一步包括:焊接母材包含名称、种类、牌号、尺寸这四个属性;焊接材料包含名称、种类、代号、尺寸这四类属性;焊接坡口包括U形坡口、V形坡口、Y形坡口;焊接接头包括对接接头、角接接头、搭接接头;焊接环境包含保护气的种类、纯度、流量这三类属性。
4.根据权利要求1所述的一种面向焊接工艺文本的工艺知识要素抽取方法,其特征在于:其中,步骤二所述的“BMES标注规则”,是指根据单个字符所属的焊接工艺知识要素实体类别以及在实体中的位置,包括首字、中间字、尾字,并进行标注。
5.根据权利要求1所述的一种面向焊接工艺文本的工艺知识要素抽取方法,其特征在于:其中,步骤二所述的“训练集和测试集”是指将标注好的焊接工艺语料划分为两部分,标注的焊接工艺语料共包含15000字符;数据集中11000字符作为训练集,4000字符作为测试集。
6.根据权利要求1所述的一种面向焊接工艺文本的工艺知识要素抽取方法,其特征在于:在步骤三所述的“焊接工艺知识要素抽取模型”,指的是晶格结构的长短期记忆模型LSTM和条件随机场CRF,以步骤二构建的语料库中的单个字符作为输入;“晶格”是指将专业词汇输入到模型中,对单个字符起约束作用;词是由输入的多个字符组合而成,并与词典中的词相匹配;模型的输出为每个字符的属于每个焊接工艺知识要素类别的概率。
7.根据权利要求6所述的一种面向焊接工艺文本的工艺知识要素抽取方法,其特征在于:在步骤三中模型的还包括“长期记忆”和“短期记忆”,长期记忆是指的是模型结构中的细胞状态,结构贯穿模型,能够保留当前输入字符的上下文信息;短期记忆是指模型对当前字符的输出,信息只用于当前字符的下一个字符。
8.根据权利要求1所述的一种面向焊接工艺文本的工艺知识要素抽取方法,其特征在于:在步骤三所述的“损失函数”是指交叉熵函数,定义为
公式中,yi代表模型预测的结果,表现为被预测字符属于各个实体类别的概率,代表该输入对应的输出的真实值。
9.根据权利要求1所述的一种面向焊接工艺文本的工艺知识要素抽取方法,其特征在于:步骤四所述的准确率p,召回率r、F1指数的计算方法为:
准确率
召回率
F1指数是p和r的调和平均值,其计算公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211174510.1/1.html,转载请声明来源钻瓜专利网。





