[发明专利]面向大规模分类体系的短文本标签方法、系统、装置有效
| 申请号: | 201910202727.0 | 申请日: | 2019-03-18 |
| 公开(公告)号: | CN110059181B | 公开(公告)日: | 2021-06-25 |
| 发明(设计)人: | 孔庆超;王磊;闫鹏;张丽;郎佳奇;王帅;潘进;毛文吉;王钲淇;段运强 | 申请(专利权)人: | 中国科学院自动化研究所;国家计算机网络与信息安全管理中心 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35 |
| 代理公司: | 北京市恒有知识产权代理事务所(普通合伙) 11576 | 代理人: | 郭文浩;尹文会 |
| 地址: | 100190 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 面向 大规模 分类 体系 文本 标签 方法 系统 装置 | ||
本发明属于文本分类领域,具体涉及一种面向大规模分类体系的短文本标签方法、系统、装置,旨在为了解决有限数据情况下面向大规模分类体系的短文本标签系统的稳定性不高的问题。本发明方法包括:获取待分类的第一短文本信息集合,并基于正向最大匹配分词和word2vec词向量表示技术进行预处理得到第二短文本信息集合;基于规则的分类方法、有监督的神经网络分类方法,对第二短文本信息集合进行二分类后进行短文本过滤,并基于同样的分类方法进行各短文本的第一、二级分类标签,基于半监督学习的标签传播方法进行各短文本的第三、四级分类标签。本发明在有限数据情况下保证了面向大规模分类体系的短文本标签系统的稳定性。
技术领域
本发明属于文本分类领域,具体涉及一种面向大规模分类体系的短文本标签方法、系统、装置。
背景技术
随着互联网官方媒体以及微信公众号自媒体、微博、贴吧等新型互联平台的广泛使用,针对这些平台上发布的短文本的自动化标签系统具有重要的意义。随着文本信息迅速膨胀,如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学和技术领域面临的一大挑战。短文本的自动化标签作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱现象的问题,方便准确地定位所需的信息和分流信息。作为信息过滤、信息检索、搜索引擎、文本数据库等领域的技术基础,短文本的自动化标签技术有着广泛的应用前景。面向大规模分类体系的短文本标签系统可以帮助有关部门有效掌握互联网内容的发展趋势,有助于互联网舆情监控等应用。通过将短文本标签化,可以大大压缩文本内容,实现将文本从非结构化数据转换为精简的结构化数据。此外,通过短文本自动化标签,可以实现对特定关注类型文本的监测与封堵,帮助舆情监控部门掌握社会主流话题的动向。
近年来随着深度学习为主的机器学习技术不断发展,区别于传统机器学习方法,深度学习最大的优势就是避免了繁琐的特征提取过程,词语使用连续向量进行表示,可以使用预训练的word2vec进行初始化。通过多层的神经网络进行高维抽象特征提取,最后经过softmax进行多分类。主要代表如:Tomas Mikolov,IlyaSutskever,Kai Chen,GregCorrado,and Jeffrey Dean.Distributed Representations of Words and Phrases andtheir Compositionality.In Proceedings of NIPS,2013.和Kim Y.Convolutionalneural networks for sentence classification[J].arXiv preprint arXiv:1408.5882,2014。
然而有监督的神经网络方法需要标注数据以及大量的训练数据集,而且很有可能在训练数据集上过拟合,对于大规模分类体系容易出现数据不足的问题。而简单的基于规则的无监督方法性能又不稳定,很难保证完成相关的任务。因此在有限数据情况下保证面向大规模分类体系的短文本标签系统的稳定性是目前函待解决的问题。
发明内容
为了解决现有技术中的上述问题,即为了解决有限数据情况下面向大规模分类体系的短文本标签系统的稳定性不高的问题,本发明的第一方面,提出了一种面向大规模分类体系的短文本自动化标签方法,该方法包括以下步骤:
步骤M100,获取待分类的短文本信息集合,作为第一短文本信息集合;
步骤M200,基于正向最大匹配分词和word2vec词向量表示技术对所述短文本信息集合中短文本进行预处理,得到第二短文本信息集合;
步骤M300,基于规则的分类方法、有监督的神经网络分类方法,按照预设的二分类规则,对所述第二短文本信息集合进行分类和短文本过滤,得到第三短文本信息集合;
步骤M400,基于规则的分类方法、有监督的神经网络分类方法,按照预设分级分类规则,获取第三短文本信息集合中的各短文本的第一、二级分类标签;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所;国家计算机网络与信息安全管理中心,未经中国科学院自动化研究所;国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910202727.0/2.html,转载请声明来源钻瓜专利网。





