[发明专利]一种字词双维度的化妆品安全监管领域事件信息抽取方法有效

专利信息
申请号: 202110278179.7 申请日: 2021-03-15
公开(公告)号: CN112884354B 公开(公告)日: 2023-07-11
发明(设计)人: 左敏;张宝宇;张青川;颜文婧 申请(专利权)人: 北京工商大学
主分类号: G06Q10/0639 分类号: G06Q10/0639;G06Q50/26;G06F8/30;G06F16/951;G06F40/126;G06F40/284
代理公司: 北京科迪生专利代理有限责任公司 11251 代理人: 安丽
地址: 100048*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 字词 维度 化妆品 安全监管 领域 事件 信息 抽取 方法
【权利要求书】:

1.一种字词双维度的化妆品安全监管领域事件信息抽取方法,其特征在于,包括以下步骤:

步骤1、针对基于化妆品安全监管领域发生的舆情事件,构建的适用于化妆品安全领域的网络爬虫,并对网络爬虫爬取到的原始文本数据进行去重和筛选预处理,再去除原始文本数据中没有含义的停用词,提取化妆品安全监管领域的专业词汇,同时形成事件文本语料;

步骤2、使用步骤1提取的化妆品安全监管领域的专业词汇,对公共领域的词嵌入资源库进行增量训练,获得化妆品安全领域词嵌入资源库;

步骤3、采用基于双向深度自注意力变换网络的编码器BERT构建字维度和词维度两个维度上的预训练模型,再使用化妆品安全领域词嵌入资源库对字维度和词维度两个维度上的预训练模型进行增量训练,得到针对化妆品安全领域的字维度和词维度预训练模型,然后将事件文本语料输入到在字维度预训练模型,得到字维度文本向量化表示,将事件文本语料输入词维度预训练模型得到词维度文本向量化表示;

步骤4、根据步骤3的结果,获得所需的词维度和字维度两种不同维度的输入向量,将字维度文本向量化表示作为主要输入信息,将文本向量化表示扩展到字向量长度,并作为辅助输入信息,输入到基于双向深度自注意力变换网络的编码器BERT中并对进行训练,得到融合全文语义信息后的文本向量;

步骤5、将融合全文语义信息后的文本向量再输入到条件随机场CRF中,在通过条件随机场计算最优概率后得到最终的事件信息抽取结果。

2.根据权利要求1所述的一种字词双维度的化妆品安全监管领域事件信息抽取方法,其特征在于:所述步骤1中,构建的适用于化妆品安全领域的网络爬虫时,爬取主要内容有化妆品安全领域词汇百科,化妆品安全突发事件发生后的舆情新闻报道,人们对于化妆品安全突发事件的评论信息;爬取内容中的化妆品安全领域词汇百科内容用来提取化妆品安全领域的领域专业词汇,化妆品安全突发事件的舆情新闻报导以及人们的评论信息两部分内容形成使用的事件文本语料。

3.根据权利要求1所述的一种字词双维度的化妆品安全监管领域事件信息抽取方法,其特征在于:所述步骤2中,在公共领域词嵌入资源库的基础上,将步骤1中得到的化妆品领域专业词汇输入到跳跃式模型中,对公共领域词嵌入资源库进行增量训练,随着步骤1中爬取内容的不断增多,每隔一段时间,当积累一定数量的进行增量训练的内容后,再次将其输入到跳跃式模型中对公共领域词嵌入资源库进行增量训练,最终将公共领域词嵌入资源库扩展为适用于化妆品安全领域的词嵌入资源库。

4.根据权利要求1所述的一种字词双维度的化妆品安全监管领域事件信息抽取方法,其特征在于:所述步骤3中,将舆情事件文本语料输入到预训练模型中获取文本的向量化表示时,其中具体执行过程为对整段文本输入按句子进行分割,然后使用深度自注意力变换网络对输入进行编码,编码后对句子的部分内容进行掩盖,掩盖后通过句子剩余内容对掩盖内容进行预测,并将预测掩盖结果与真实掩盖内容进行对比,得到预测的误差,根据预测误差对模型的参数进行调整,通过这种预测将输入文本映射到了向量空间中,得到字维度文本向量化表示;词维度在输入到预训练前首先进行中文的分词工作,然后同样得到词维度文本输入向量。

5.根据权利要求1所述的一种字词双维度的化妆品安全监管领域事件信息抽取方法,其特征在于:所述步骤4中,字维度文本向量化表示作为主要输入信息,词维度文本向量化表示作为辅助输入信息时,首先需要将字维度文本向量化和词维度文本向量化表示进行向量融合,再将不同维度的两种向量输入统一到同一个维度,字维度文本向量化表示vc∈Rn,词维度文本向量表示为vw∈Rm,通过线性变换将向量统一到同一维度后,然后将两种文本向量化表示进行相加,最后添加与文本等长的向量存储文本的分句信息,作为分割嵌入向量与和文本向量化表示,一并输入到双向深度自注意力变换网络的编码器BERT中。

6.根据权利要求1所述的面向化妆品安全监管领域的字词双维度舆情事件信息抽取方法,其特征在于:所述步骤5中,事件信息抽取结果的内容分为6类:事件发生时间、事件发生地点、事件参与者、参与者行为、事件受影响对象、受影响对象的状态变化。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工商大学,未经北京工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110278179.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top