[发明专利]一种对工业事故记录文本进行挖掘的方法在审
| 申请号: | 201911106089.9 | 申请日: | 2019-11-13 |
| 公开(公告)号: | CN110851603A | 公开(公告)日: | 2020-02-28 |
| 发明(设计)人: | 徐九韵;郝壮远 | 申请(专利权)人: | 中国石油大学(华东) |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 266580 山*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 工业 事故 记录 文本 进行 挖掘 方法 | ||
1.A.数据预处理:首先从四十万条数据中选取三千条进行人工标注以获得训练连数据集。首先需要对其进行数据清理,去掉其中的空字段与特殊字符。这样就得到了训练样本。
B.使用BERT-BiLSTM-CRF-NER训练命名实体识别模型:BERT的全称是(BidirectionalEncoder Representations from Transformers)是谷歌开源的一种新的预训练词向量的方法,它在各种下游的自然语言处理任务中都取得了目前最好的成绩。在本文中,我们结合使用谷歌开源的中文预训练BERT模型与双向的LSTM模型进行命名实体识别任务。从事故事件文本中提取出'事故类别','生产作业环节','生产作业环节子分类','生产阶段','工程技术服务(钻井作业)','人员疲劳','风险屏障','原因因素','管理因素'等实体信息。
C.使用Stanfordcorenlp进行命名实体识别:Stanfordcorenlp是由斯坦福大学开源的一套Java NLP工具,提供诸如:词性标注(part-of-speech(POS)tagger)、命名实体识别(named entity recognizer(NER))、情感分析(sentiment analysis)等功能。Stanfordcorenlp本身可对文本中的机构名称,设施名称与事故类别进行识别,这与本文的研究内容高度契合。并且,经过多次实验发现Stanfordcorenlp对现有事故事件记录中的事故类别的识别准确率达到了百分之八十以上。故在采用自训练的BERT-BiLSTM-CRF-NER命名实体是识别模型的同时,采用Stanfordcorenlp作为补充提高识别准确率。
D.结合使用SVM与LDA主题模型进行文本分类:SVM的中文名时称支持向量机。SVM对多维度,非线性的数据做分类或回归会比较高效率。高效率的意思是,用同样数据量得到更高准确率,或者用更少数据量得到同样准确率。但是SVM算法复杂,缺点是当数据量增加时,计算时间是指数增长的。如果使用云计算资源,就不是问题了。LDA的中文名称是隐含狄利克雷分布。使用该算法可以找出文档所属主题,针对每个文档产生一个文档主题分布向量。首先利用LDA产生每个文档的主题分布向量,使用该向量来代表该文档的特征。然后使用这部分数据来训练SVM。
E.使用fasttext进行文本分类:fasttext是由facebook公司开源的一个文本分类器,fasttetx没有采用深度学习的架构,因此具有很高的训练速度。同时具有比拟深度学习文本分类的性能,即具有与深度学习相当的准确率与召回率。
F.集成学习综合结果:采用集成学习的思想,综合考虑SVM与fasttext的结果来得出最终分类结果。结合使用模糊逻辑与行业术语词典提取文本中所需的信息。将原始文本进行分词后,通过与专业字典进行模糊匹配进而得到分类信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油大学(华东),未经中国石油大学(华东)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911106089.9/1.html,转载请声明来源钻瓜专利网。





