[发明专利]一种基于知识图谱的危险化学品库构建方法有效
| 申请号: | 202011602540.9 | 申请日: | 2020-12-29 |
| 公开(公告)号: | CN112541088B | 公开(公告)日: | 2022-05-17 |
| 发明(设计)人: | 陈观林;胡桥;翁文勇;杨武剑;李甜 | 申请(专利权)人: | 浙大城市学院 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06K9/62;G06F16/22;G06F40/117;G06N3/04;G06N3/08;G06Q10/06;G06Q10/08;G06Q50/26 |
| 代理公司: | 杭州九洲专利事务所有限公司 33101 | 代理人: | 张羽振 |
| 地址: | 310015 浙*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 知识 图谱 危险 化学品 构建 方法 | ||
1.一种基于知识图谱的危险化学品库构建方法,其特征在于,包括以下步骤:
步骤1、构建危险化学品数据集;确定构建的知识图谱中的基础化学品节点,根据化学品目录,利用CAS号在网络中收集关于该化学品的内容;将化学品及其CAS号信息保存至数据库,形成一张表;该表中的行表示单个化学品,该表中的列表示该化学品的信息,包括品名、别名、CAS号和备注;然后批量获取这些化学品,将获取到的网页保存至特定的文件夹内;
步骤2、批量处理获得的数据,解析保存下来的网页数据,提取其中的化学品基础信息和风险信息的描述性语句:根据建立化学品知识图谱的内容确定化学品的基础属性,确定使用到的事故风险信息;从收集到的数据中提取简单处理的基础属性数据,剔除其余无关的信息;将基础属性数据存储在数据库中形成关键字,将事故风险信息的描述性语句存储在非关系型数据库中;
步骤3、建立抽取风险信息模型:设计以AlBert为预训练模型的神经网络模型作为抽取风险信息模型;该神经网络模型对经过预处理过的句子序列进行编码,其中Albert层提取特征数据,BiLSTM层提取时序特征,输出每个字的特征;分类器层再对Albert层和BiLSTM层的输出数据拼接后的数据进行解码,解码出每个字对应的实体类别;该神经网络模型的输出为(B,S,N),其中B为训练批次的句子数,S为句子的长度,N为实体类别数;
步骤3.1、Albert层使用Albert预训练模型对输入数据进行特征抽取,其中输入数据为经过预处理过的句子序列(B,S),B为训练批次的句子数,S为句子的长度;Albert层是整个神经网络模型的第一层;Albert层的输出取前两个数据,数据维度分别为(B,S,HAlbert)和(B,HAlbert),其中HAlbert为Albert层隐藏态向量维度;
步骤3.2、BiLSTM层是整个神经网络模型的第二层,BiLSTM层使用双向长短记忆网络BiLSTM对经Albert预训练模型处理过的数据进行编码:BiLSTM层的输入数据形状为(B,S,HAlbert),为Albert层输出的第一条数据;BiLSTM层对输入数据中每个句子中的每个字输出一个状态向量,状态向量长度为HLSTM,HLSTM是LSTM模型隐藏态向量维度;BiLSTM层输出数据的形状为(B,S,HLSTM),表示B个句子,每个句子S个字,每个字的状态向量长度为HLSTM;
步骤3.3、将Albert层输出的第二条数据与BiLSTM层输出的数据进行拼接:将Albert层输出的第二条数据由二维的(B,HAlbert)拓展为三维的(B,1,HAlbert),再将句子的特征sen_features复制S份,拓展到每个词上得到(B,S,HAlbert):
sen_features=sen_features.view(B,1,HAlbert)
sen_features=torch.cat([sen_features]*S,1)
上式中,sen_features为句子的特征,是(B,HAlbert)维度的矩阵;sen_features.view()函数将sen_features拉伸为(B,1,HAlbert)维度;torch.cat()是Python中拼接矩阵的函数,S为句子的特征被复制的份数;[sen_features]是sen_features形成的列表,包含S个sen_features;使用torch.cat([sen_features]*S,1)后,新的sen_features的维度变为(B,S,HAlbert);
再将拓展后的Albert层输出的第二条数据与BiLSTM层输出的数据进行连接:
word_features=torch.cat([sen_features,word_features],2)
上式中,word_features为词的特征;torch.cat()是Python中拼接矩阵的函数;sen_features为句子的特征;将字特征的形状由(B,S,HLSTM)变为结果数据的形状(B,S,HAlbert+HLSTM);
步骤3.4、分类器层解码出每个字所属类别:
若使用CRF或者仿射变换对每个字进行解码来判断所属类别;分类器层将进行连接后的数据由(B,S,HAlbert+HLSTM)映射到(B S,N),N为实体类别数;然后对映射后的数据进行SOFTMAX处理,得到每个字在各个类别上的概率值,每个字的状态向量最大值的下标作为预测的实体类别;
若使用CRF进行解码,则不进行SOFTMAX处理,将形状为(B,S,N)的数据作为分类器层的输入数据,计算出该分类器层得到的输出数据的损失和当前条件下最优的类别路径;
步骤4、标注数据并使用以AlBert为预训练模型的神经网络模型进行信息抽取:
步骤5、整合数据,构建知识图谱;对于有关联的数据,在知识图谱中建立相应的关系将其连接起来,对于风险信息数据,依据其风险条件、风险事件、风险产物建立相应的关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙大城市学院,未经浙大城市学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011602540.9/1.html,转载请声明来源钻瓜专利网。





