[发明专利]一种自然语言处理分类模型中多标签分布学习的方法和系统在审

申请号：	202010550434.4	申请日：	2020-06-16
公开（公告）号：	CN111797234A	公开（公告）日：	2020-10-20
发明（设计）人：	叶蔚;刘培阳;张世琨;张君福	申请（专利权）人：	北京北大软件工程股份有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/211;G06F40/284;G06F40/30;G06K9/62
代理公司：	北京细软智谷知识产权代理有限责任公司 11471	代理人：	岳凤羽
地址：	100089 北京市海淀区北四环西路67号中关***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种自然语言处理分类模型标签分布学习方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种自然语言处理分类模型中多标签分布学习的方法和系统，属于自然语言处理领域。在获取训练样本后，分别计算得到每个标签的标签向量和每个样本的样本向量；然后根据标签向量和样本向量计算得到每个样本与每个标签之间的相关性；再通过每个样本与每个标签之间的相关性计算得到每个样本的标签分布；最后根据标签分布更新自然处理分类模型。通过这种方式，能够使经过更新后的自然处理分类模型的样本得到更准确的标签，大大提高了自然处理分类模型的泛化能力。

技术领域

本发明涉及自然语言处理领域，特别地，涉及一种自然语言处理分类模型中多标签分布学习的方法和系统。

背景技术

自然语言处理任务主要分为三类，篇章级分类任务，句子级分类任务，还有单词级别的分类任务。传统的分类任务中经常会出现一种情况，就是一个样本不仅仅会属于一个分类，于是多标签学习(multi-label learning)应运而生。但是多标签学习仍然有一些不足，就是很多样本对于是否属于一个标签并不是特别明确，而是处于一种“既可以被打上这个标签，也可以不被打上这个标签”的状态。现有技术在计算样本的标签时得到的标签分布不精确，不利于提高模型的泛化能力。

发明内容

为了克服现有技术的不足，本发明提供一种自然语言处理分类模型中能够得到精确的标签分布且能够提高模型泛化能力的多标签分布学习的方法和系统

本发明解决其技术问题所采用的技术方案是：

一方面，

一种自然语言处理分类模型中多标签分布学习的方法，包括以下步骤：

获取训练样本；

根据所有样本的数据计算得到每个标签的标签向量和每个样本的样本向量；

根据所述标签向量和所述样本向量计算得到每个样本与每个标签之间的相关性；

根据样本与每个标签之间的相关性计算得到每个样本的标签分布；

根据所述标签分布更新所述自然语言处理分类模型。

进一步地，在获取训练样本时还包括：

将语料库中的所有单词转换成词向量，所述词向量包含了对应单词在所述样本中的上下文语义信息。