[发明专利]一种基于远程监督的敏感文风识别方法在审
申请号: | 202110558876.8 | 申请日: | 2021-05-21 |
公开(公告)号: | CN113204975A | 公开(公告)日: | 2021-08-03 |
发明(设计)人: | 高剑奇;景艳山 | 申请(专利权)人: | 上海明略人工智能(集团)有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289;G06F40/211;G06F16/951;G06N3/04;G06N3/08;G06F16/35;G06K9/62 |
代理公司: | 成都众恒智合专利代理事务所(普通合伙) 51239 | 代理人: | 刘华平 |
地址: | 200030 上海市徐汇区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 远程 监督 敏感 文风 识别 方法 | ||
本发明涉及一种基于远程监督的敏感文风识别方法,包括以下步骤:S1获取文本语料,针对互联网中获取的大量的文本语料利用word2vec训练词向量模型,获得文本中每一个词语的语义向量表示;S2根据业务需求进行类别划分并构建各个类别的种子词,针对各个类别的的种子词,利用训练好的词向量模型,对各个类别的种子词进行扩充,获得每个敏感类别的触发词集合;S3针对获得的每个触发词,利用自适应模板,回到原始文本语料中进行回标,获得带有目标敏感标签的训练语料;S4搭建BERT+self‑attention+softmax深度学习模型,选用adam优化算法对模型进行训练,训练好的模型用于对敏感文本进行识别;S5输出文本语料中具有敏感信息的文本。本发明提高了对敏感文本识别的准确率和召回率。
技术领域
本发明用于计算机信息处理技术领域,特别涉及一种基于远程监督的敏感文风识别方法。
背景技术
互联网中遍布着大量的新闻,评论等各种各样的文本数据,这些数据为用户们查询信息、沟通交流和拓宽视野等提供了极大的便利。然而这些数据中也包含了大量的涉政、色情、辱骂等大量噪音数据,严重的影响了用户的体验,同时污染我们的生活环境,内容安全的防治刻不容缓。
通过机器学习算法,精准高效识别各类场景涉政、色情、辱骂和广告法敏感词、垃圾广告等违规内容,可以帮助政府和企业提前发现敏感内容。然而,目前的方法仍然存在如下问题:第一、训练模型的标注数据不足,而人工的数据标注需要消耗大量的人力和物力;第二、模型的准确率有待提高。
现阶段的方法主要将敏感文本的识别看成一个多分类问题,然而由于训练语料的缺失,使得敏感文本识别模型准确率和召回率都有待提高,而对训练语料进行人工数据进行标注人工成本特别高。而远程监督是借助外部知识库为数据提供标签,从而省去人工标注的时间和成本。但是远程监督会产生噪音数据,因此还需要搭建模型来进行对敏感文本的识别。
Word2vec是Google公司在2013年提出的词向量模型,主要任务是将词映射到高维空间转化为相应词向量,该词向量具有语义相似度。Word2vec的原理是构造一个网络模型,该网络模型有两种主要结构,分别是skip-gram和CBOW(Continuous Bag Of Words,CBOW)模型。两个模型具有类似的结构,分别由输入层、映射层(隐藏层)和输出层组成。简单来说,skip-gram的核心思想是根据当前词来预测上下文窗口中每个词的生成概率,最大化背景词的输出概率。
BERT的全称是Bidirectional Encoder Representation from Transformers。BERT在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩:全部两个衡量指标上全面超越人类,并且在11种不同NLP测试中创出SOTA表现,包括将GLUE基准推高至80.4%(绝对改进7.6%),MultiNLI准确度达到86.7%(绝对改进5.6%),成为NLP发展史上的里程碑式的模型成就。
目前现有技术中,对敏感文风的识别常采用的技术方案多为以远程监督方法为主,将文本与现有知识库进行启发式地标注构建大规模语料后,再采用有监督的方法进行学习。例如,专利申请号为CN202010523627.0的发明专利,该发明公开了一种面向社交媒体的敏感数据发现方法,通过主题模型与词向量模型,利用词语相似度与文档中的词共现信息,实现弱监督的文本分类算法,通过依靠实现设定少量敏感信息相关的关键词,结合大规模语料训练的词向量,来对敏感信息进行分类过滤,高效率、低成本地解决社交媒体敏感数据发现问题,但是该专利没有考虑噪音数据对模型的干扰;例如,专利申请号为CN202011362711.5的发明专利,该专利公开了一种基于多任务多示例的远程监督关系抽取方法,采用多任务和多示例的学习架构,以及Word2vec词向量预训练和多示例的句子级别注意力机制方法进行远程监督关系抽取,具体包括:数据预处理、输入表征、抽象语义表示、实体类型表征和多任务多示例关系抽取等步骤;该发明有效解决了噪声、训练不充分和数据的类不均衡问题,有效降低噪声对分类的影响,提高真实句子对分类的贡献,对缓解噪声和NA对分类的影响,具有一定的实用价值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海明略人工智能(集团)有限公司,未经上海明略人工智能(集团)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110558876.8/2.html,转载请声明来源钻瓜专利网。