[发明专利]一种字词双维度的化妆品安全监管领域事件信息抽取方法有效
申请号: | 202110278179.7 | 申请日: | 2021-03-15 |
公开(公告)号: | CN112884354B | 公开(公告)日: | 2023-07-11 |
发明(设计)人: | 左敏;张宝宇;张青川;颜文婧 | 申请(专利权)人: | 北京工商大学 |
主分类号: | G06Q10/0639 | 分类号: | G06Q10/0639;G06Q50/26;G06F8/30;G06F16/951;G06F40/126;G06F40/284 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 安丽 |
地址: | 100048*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 字词 维度 化妆品 安全监管 领域 事件 信息 抽取 方法 | ||
本发明涉及一种字词双维度的化妆品安全监管领域事件信息抽取方法,包括:对互联网上爬取到的舆情事件数据进行预处理,在公共领域资源库的基础上构建化妆品安全领域word embedding资源库、对其使用领域语料进行增量训练、通过基于BERT的神经网络提取字词双维度文本特征,完成化妆品安全监管领域事件信息抽取。本发明一定程度上解决了化妆品安全监管领域事件信息抽取准确程度不高,领域性强的难题,通过构建新的模型,将字维度作为文本向量化表示的基础上再加入词维度进行辅助表示,提高事件信息抽取准确性。
技术领域
本发明涉及人工智能领域,尤其是指一种字词双维度的化妆品安全监管领域事件信息抽取方法。
背景技术
随着人们生活质量的普遍提高,化妆品的安全逐渐成为了人们日常生活中重点关注的一方面,在化妆品安全监管领域内加强化妆品安全风险管理能力是重点内容,如应强化突发事件应急处置。化妆品安全事件的发生往往会伴随生成大量的信息,监管部门和大众很难从第一时间从互联网上大量的信息中获取到准确的事件信息,事件信息抽取技术作为信息抽取技术的一种,可以为监管部门提供决策支撑的辅助作用,为化妆品安全事件发生后的舆情监控提供支持,也可以为普通群众提供第一时间的信息收集与发布作用。所以建立起事件信息抽取模型对化妆品安全的监管是具有重大意义的。
事件信息抽取从模式匹配逐渐发展到基于统计的机器学习方法,机器学习方法中当下以人工神经网络为基础的深度学习最为高效,深度学习不仅将事件抽取看作是分类任务,还看作是序列标注任务。
目前有些模型使用级联(pipline)的方式,先进行触发词的识别,再进行论元的提取。这种方法会一定的不足,会导致前一阶段的误差传播到后一阶段导致误差传播。本发明采用联合抽取的方式,将触发词和论元同时抽取,进而提高两个子任务的性能,同时加入了全局特征以表示触发词和论元之间的全局信息。
本发明采用标注序列标注模式,将事件论元抽取问题变成一个端到端的问题。同时采用双网络模型结构,一个使用以字维度文本向量化表示作为输入,另一个引入了领域词机制,使用词维度文本向量化表示作为输入。
发明内容
本发明的技术解决问题是:克服了现有技术领域针对性不强,事件信息抽取不完全的问题,提供一种字词双维度的化妆品安全监管领域事件信息抽取方法,提高化妆品安全领域舆情事件信息抽取准确性,以解决目前化妆品安全领域相关的监管需求,在此处提出的方法能够快速准确的对化妆品安全事件进行信息抽取,大幅提高监管者的工作效率,辅助监管者做出判断。
本发明所提出的方法是:一种字词双维度的化妆品安全监管领域事件信息抽取方法,包括以下步骤:
步骤1、使用python编程语言根据化妆品安全监管领域的特点,针对发生的舆情事件编写网络爬虫,并对爬虫爬取到的原始文本数据进行去重和筛选预处理,再去除原始文本数据中没有含义的停用词,提取化妆品安全监管领域的专业词汇,同时形成可用的舆情事件文本语料。
步骤2、根据步骤1获得的化妆品安全监管领域的专业词汇,结合公共领域的词嵌入(word embedding)资源库来获得化妆品安全领域词嵌入资源库。在公共领域词嵌入资源库基础上,使用化妆品安全监管领域的专业词汇对词嵌入资源库进行增量训练,获得化妆品安全领域词嵌入资源库。
步骤3、首先基于双向深度自注意力变换网络的编码器(BERT-BidirectionalEncoder Representations from Transformers)构建的字维度和词维度两个维度上的预训练模型,步骤2得到化妆品安全领域词嵌入资源库来获取字词双维度文本向量化表示。首先使用第二步构建的化妆品安全领域词嵌入资源库词嵌入资源库对两个维度上的预训练模型进行增量训练,得到了针对化妆品安全领域的预训练模型。然后将步骤1形成的舆情事件文本语料输入在字维度上构建的预训练模型,运行模型得到字维度上的文本向量化表示;然后同样将步骤1形成的舆情事件文本语料输入词维度上构建的预训练模型得到词维度上的文本向量化表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工商大学,未经北京工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110278179.7/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理