[发明专利]改进迁移学习模型进行工业互联网发现并提取信息的装置在审
申请号: | 202011256306.5 | 申请日: | 2020-11-12 |
公开(公告)号: | CN112256840A | 公开(公告)日: | 2021-01-22 |
发明(设计)人: | 林飞;汪致伦;王丹;易永波;古元 | 申请(专利权)人: | 北京亚鸿世纪科技发展有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F16/36;G06F16/951;G06F16/958;G06F40/211;G06F40/289;G06F40/30;G06N20/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100095 北京市海淀区高里*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 改进 迁移 学习 模型 进行 工业 互联网 发现 提取 信息 装置 | ||
1.改进迁移学习模型进行工业互联网发现并提取信息的装置,其特征在于由网络爬虫、文本清洗模块、内容分类执行模块、改进的迁移学习模型和实体识别模块组成;
网络爬虫负责爬取网页内容并将网页内容和网页地址发送给文本清洗模块;
文本清洗模块负责将网页内容和网页地址所形成的文本中的噪声字符去除生成干净的网页信息,文本清洗模块将干净的网页信息发送给内容分类执行模块;噪声字符包括:html标签、停用词、转发符、url、标记信息;
内容分类执行模块包含了工业互联网分类模型,工业互联网分类模型由已分类互联网样本数据经过改进的迁移学习模型进行语言训练得到;工业互联网分类模型是由已分类互联网样本数据的分类标签和已分类互联网样本数据的内容属于每种分类标签的概率组成;
改进的迁移学习模型的算法表示为:1)使用StructBERT对文本中的每句话的每个字进行表示,然后使用双向Transformer学习被表示后的文本,Transformer是StructBERT中的标准程序,传统Transformer的每一层参数独立,当层数增加时,参数量也会明显上升,本模型将所有层的参数进行共享,学习一层的参数量;2)改进StructBERT的词表示为由词向量、段向量和位置向量共同表示;词向量的第一个单词用于之后的分类任务,段向量用来区别两种句子,位置向量用于表示词位置信息;3)通过四个训练任务来学习语义特征:i)遮掩语言模型,ii)预测下一句任务,iii)词序任务,iv)句子结构任务;遮掩语言模型任务是指模型在训练过程中预测随机遮掩15%的字,而在随机遮掩15%的字中80%的字替换成mask符号,10%的字不替换,10%的字替换成其他字;模型通过此任务学习文本的语义信息;预测下一句任务为了使模型学习到句子之间的关系,假设训练的输入是句子S1和S2,S2有一半的几率是S1的下一句,输入这两个句子,模型预测S2是否为S1的下一句;词序任务是从未被遮掩的序列中以5%的几率选择部分长度为3子序列,将子序列中的词序打乱,让模型重建原来的词序,从而使模型学习到句子中的词序关系;句子结构任务,给定句子对(S1,S2),判断S2跟S1的上下关系和无关性;在采样时,对于一个句子S,1/3的概率采样S的下一句组成句对,1/3的概率采样S的上一句组成句对,1/3的概率随机采样一个其他文档的句子组成句对;
内容分类执行模块对照干净的网页信息和工业互联网分类模型,内容分类执行模块丢弃非工业互联网分类的干净的网页信息并将属于工业互联网分类的干净的网页信息发送给实体识别模块;
实体识别模块包含了实体类别模型,实体类别模型由带实体类别标签的已分类工业互联网样本数据经过改进的迁移学习模型进行语言训练得到,实体类别模型是带实体类别标签的已分类工业互联网样本数据的分类标签和带实体类别标签的已分类工业互联网样本数据的内容属于每种分类标签的概率组成;
实体识别模块对照干净的网页信息和实体类别模型,输出干净的网页信息中的内容及干净的网页信息中的内容对应的实体类别标签,生成更新的带实体类别标签的已分类工业互联网数据;
实体识别模块将更新的带实体类别标签的已分类工业互联网数据合并入带实体类别标签的已分类工业互联网样本数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京亚鸿世纪科技发展有限公司,未经北京亚鸿世纪科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011256306.5/1.html,转载请声明来源钻瓜专利网。