[发明专利]一种文本分类方法及装置在审

申请号：	202011001048.6	申请日：	2020-09-22
公开（公告）号：	CN112131386A	公开（公告）日：	2020-12-25
发明（设计）人：	王李鹏	申请（专利权）人：	新华三大数据技术有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/284;G06F40/216
代理公司：	北京柏杉松知识产权代理事务所(普通合伙) 11413	代理人：	孟维娜;项京
地址：	450000 河南省郑州市高新技***	国省代码：	河南;41
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本分类方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例提供了一种文本分类方法及装置，涉及数据处理技术领域，其中，上述方法包括：获得文本的特征和文本中词汇的特征；获得词汇在文本中出现的次数，并根据所获得的次数确定用于表示词汇与词汇之间、以及词汇与文本之间是否存在关联关系的描述信息；以文本和词汇为节点，且以文本的特征和词汇的特征为节点数据，根据上述描述信息，生成图；根据所生成的图以及预设的注意力参数，基于图注意力机制，对图中节点对应的文本的特征和词汇的特征进行调整；根据调整后的文本的特征和词汇的特征，对文本进行分类。应用本发明实施例提供的方案可以对文本进行分类。

技术领域

本发明涉及数据处理技术领域，特别是涉及一种文本分类方法及装置。

背景技术

由于不同文本所表达的含义不同，根据文本所表达的含义可以将不同的文本划分为不同的类别。例如，小说文本可以被划分为推理小说、爱情小说、恐怖小说等类别，邮件文本可以被划分为普通邮件、垃圾邮件等类别。确定文本类别之后可以根据文本类别对文本进行进一步处理，例如，对邮件文本分类后可以拦截垃圾邮件。因此，对文本进行分类具有广泛应用场景。

发明内容

本发明实施例的目的在于提供一种文本分类方法及装置，以对文本进行分类。具体技术方案如下：

第一方面，本发明实施例提供了一种文本分类方法，所述方法包括：

获得文本的特征和文本中词汇的特征；

获得词汇在文本中出现的次数，并根据所获得的次数确定用于表示词汇与词汇之间、以及词汇与文本之间是否存在关联关系的描述信息；

以文本和词汇为节点，且以文本的特征和词汇的特征为节点数据，根据所述描述信息，生成图，其中，所述图中具有关联关系的两个文本和/或词汇对应的节点之间存在边；

根据所生成的图以及预设的注意力参数，基于图注意力机制，对图中节点对应的文本的特征和词汇的特征进行调整；

根据调整后的文本的特征和词汇的特征，对文本进行分类。

本发明的一个实施例中，所述根据所生成的图以及预设的注意力参数，基于图注意力机制，对图中节点对应的文本的特征和词汇的特征进行调整，包括：

针对所生成的图中的每一节点，根据该节点对应的对象的特征、关联节点对应的关联对象的特征以及预设的注意力参数，基于图注意力机制，计算所述关联对象对该对象的重要程度，其中，节点对应的对象包括：文本和文本中的词汇，所述关联节点为：与该节点之间存在边的节点；

根据计算得到的重要程度以及各个对象的关联对象的特征，对各个对象的特征进行调整。

本发明的一个实施例中，所述根据所生成的图以及预设的注意力参数，基于图注意力机制，对图中节点对应的文本的特征和词汇的特征进行调整；根据调整后的文本的特征和词汇的特征，对文本进行分类，包括：

将所生成的图输入预先训练的分类模型，得到文本的分类结果，其中，所述分类模型用于：对图中节点对应的文本的特征和词汇的特征进行调整，并根据调整后的文本的特征和词汇的特征对文本进行分类，所述分类模型为：基于图注意力机制、对预设的图神经网络模型进行有监督训练得到的模型，所述图神经网络模型的模型参数包括所述注意力参数。

本发明的一个实施例中，通过以下方式训练得到所述分类模型：

获得样本文本的特征和样本文本中样本词汇的特征；

获得样本词汇在样本文本中出现的次数，并根据所获得的次数确定用于表示样本词汇与样本词汇之间、以及样本词汇与样本文本之间是否存在关联关系的样本描述信息；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于新华三大数据技术有限公司，未经新华三大数据技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011001048.6/2.html，转载请声明来源钻瓜专利网。

上一篇：一种地表水侵入型储集层中油水层识别方法
下一篇：一种基于企业园区监控的智能化监控安全系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种文本分类方法及装置在审

专利文献下载