[发明专利]一种基于图神经网络的多元特征融合中文文本分类方法有效
| 申请号: | 202010868076.1 | 申请日: | 2020-08-26 |
| 公开(公告)号: | CN112015863B | 公开(公告)日: | 2023-06-13 |
| 发明(设计)人: | 范梦真;严一博;程大伟;罗轶凤;钱卫宁;周傲英 | 申请(专利权)人: | 华东师范大学;上海瞰点科技有限责任公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/295;G06F40/30;G06F18/241;G06N3/0442;G06N3/0464;G06N3/048;G06N3/08 |
| 代理公司: | 上海蓝迪专利商标事务所(普通合伙) 31215 | 代理人: | 徐筱梅;张翔 |
| 地址: | 200241 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 神经网络 多元 特征 融合 中文 文本 分类 方法 | ||
本发明公开了一种基于图神经网络的多元特征融合中文文本分类方法,属于自然语言处理领域。其特点是融合全局图卷积特征和局部序列特征进行文本分类,通过构建文本与命名实体的异构图并利用异构图进行全局图卷积特征提取,基于GRU的序列编码器进行局部序列特征提取,最后融合两部分特征输入分类器,特别地,在异构图特征提取阶段和特征融合阶段使用attention机制来提高重要信息的权重。本发明在某领域的文本分类任务上,相比于现有的分类模型,本发明提出的模型的中文文本分类准确率明显提高,能更好地应用于对分类精度要求高的某领域文本分类任务上。
技术领域
本发明涉及自然语言处理领域,尤其涉及基于图神经网络的多元特征融合中文文本分类方法。
背景技术
互联网时代文本信息大量产生,例如每天的行业新闻中蕴含大量有效信息,获取并为这些高效准确地为文本打上标签,是自然语言处理复杂任务的基础。类别化后的新闻也有利于研究员针对性地分析和预测行业行情变化。文本分类是自然语言处理中的一项基础任务,是指根据预先定义好的类别体系将文本打上相应一个或多个标签的过程。传统的机器学习文本分类方法,通常包括两个部分:特征表示和分类模型。传统文本特征表示方式主要有Bow(词袋)、Tf-idf(词频-逆文档频率)等,在将文档向量化后,使用诸如逻辑回归、SVM、朴素贝叶斯、决策树等方法分类。传统的语言表示模型特征稀疏且无法表征相似度。随着深度学习技术的发展,文本表示模型可以使用word2vec、glove等分布式表示的语言模型,并使用神经网络进行信息提取和分类。近年来,图卷积神经网络的提出和在文本分类上的使用,提升了文本分类的效果,能够做到半监督的文本分类,减轻人工标注数据的压力。现有文本分类方法针对文本分类仍然有以下不足。
1)序列模型需要大量的标注数据
现有的文本分类模型大部分基于类别较少,粒度较粗的场景,一般是几类到几十类,使用循环神经网络(RNN)和长短期记忆神经网络(LSTM)进行特征提取。这类序列模型参数量较大,需要大量的标注数据来训练,而实际的应用中,大量的标注往往耗费巨大的标注成本,且质量难以监控。
2)没有结合具体领域的知识进行分类
文本中出现的上市公司、非上市公司、人名、地点、时间、金钱和产品等命名实体对文本分类有重要的作用,有相同命名实体的文本在类别上往往有相似性。尤其在细粒度的文本分类中,区分表述相似实际意义不同的命名实体对分类准确率十分重要。例如,“近年来某地果农收益是往年十余倍,得益于在某互联网平台的曝光”这类新闻属于农业而与互联网行业的相关性不大。所以,识别出文本中的命名实体能够避免歧义,提高文本分类方法的准确率。
综上所述,对于领域内实体信息敏感的细粒度分类技术尚未出现。
发明内容
本发明的目的是针对现有技术的不足而提供的一种基于图神经网络的多元特征融合中文文本分类方法,该方法基于图卷积神经网络,构建文本-命名实体的异构图,通过异构图上的图卷积获得全局信息,并结合文本分类领域常用的文本编码方式GRU,对文本信息进行编码,提升文本表征的信息量,得到一个融合了全局信息和局部语义信息的表征用于文本分类。
实现本发明目的的具体技术方案是:
一种基于图神经网络的多元特征融合中文文本分类方法,该方法包括以下具体步骤:步骤1:文本收集与处理
收集文本,对收集到的文本进行文本预处理,并划分出训练集、验证集和测试集;其中,文本预处理包括分词及去除停用词;
步骤2:词向量模型训练
使用步骤1中处理后的全部文本训练word2vec词向量模型,保存训练好的word2vec词向量模型;
步骤3:文本-命名实体异构图构建
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学;上海瞰点科技有限责任公司,未经华东师范大学;上海瞰点科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010868076.1/2.html,转载请声明来源钻瓜专利网。





