[发明专利]一种基于多重弱监督集成的短文本分类方法有效
| 申请号: | 202010211121.6 | 申请日: | 2020-03-24 |
| 公开(公告)号: | CN111444342B | 公开(公告)日: | 2021-12-10 |
| 发明(设计)人: | 修保新 | 申请(专利权)人: | 湖南董因信息技术有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/279;G06F40/289 |
| 代理公司: | 长沙大珂知识产权代理事务所(普通合伙) 43236 | 代理人: | 伍志祥 |
| 地址: | 410073 湖*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 多重 监督 集成 文本 分类 方法 | ||
1.一种基于多重弱监督集成的短文本分类方法,其特征在于,包括以下步骤:
步骤1,获取原始数据集和知识库,进行数据预处理;
步骤2,结合拟采取的弱监督来源,对预处理后的数据进行知识抽取;
步骤3,将抽取的知识编程表示为标注函数,并用于数据标注;
步骤4,通过条件独立模型,进行标签集成,生成概率标签;
步骤5,基于全连接神经网络,训练分类模型;
步骤6,对所述分类模型进行评估及优化,获得最优模型;
步骤7,利用最优模型进行短文本分类;
步骤1中所述的原始数据集,包括大规模无标记数据集Train,小规模有标记数据集Dev、Valid和Test;所述的知识库包括维基百科,所述的预处理包括依序进行基于概率语言模型的分词和基于词频统计的向量化,预处理得到分词后的数据和向量化的数据;
步骤2选取了关键词匹配、正则表达式和远监督聚类作为弱监督来源,所述的关键词匹配和正则表达式均基于各个类别的关键词,属于启发式规则,对应显性知识;所述远监督聚类,指基于样本点与知识库之间相似度的聚类方法,用于表示隐形知识。
2.根据权利要求1所述的短文本分类方法,其特征在于,所述远监督聚类的具体步骤为:首先,确定相似度阈值;然后,逐一计算样本与知识库的相似度;最后,进行相似度比较:如果某一样本与知识库的相似度不低于阈值,样本点获得与知识库一致的类别标签,否则弃权。
3.根据权利要求2所述的短文本分类方法,其特征在于,所述的关键词是基于小规模标记数据集Dev,并采用潜在狄利克雷分布模型抽取,而所述的相似度阈值,则通过逐一计算知识库与小规模标记数据集Dev同一类别数据的余弦相似度,并取最大值获得。
4.根据权利要求2或3所述的短文本分类方法,其特征在于,步骤3中所述的数据标注包括:将抽取的关键词,形式化表达为关键词匹配和正则表达式的形式,将相似度阈值定量表示为远监督聚类的形式,得到标注函数族;之后以编程方式逐一将类别标签分配给未标记数据集Train:只有包含特定关键词或相似度大于相似度阈值的样本才能被分配类别标签,在不满足的情况下,数据点只会得到弃权标签,由此获得数据的离散标签矩阵;其中,离散标签矩阵的每一行对应一条数据样本,每一列对应一个弱监督来源,其元素取值为整数;
在步骤4所述的标签集成的过程中,假设离散标签矩阵中某一列的弱标签条件依赖于其他列的弱标签,从而对离散标签矩阵逐列构建条件独立模型;之后,借助这一条件独立模型将离散标签矩阵转化为概率标签矩阵;不同于离散标签矩阵,概率标签矩阵的每一列对应一个类别,元素取值为概率;
步骤5所述分类模型训练,以概率标签矩阵、无标签数据集Train和小规模标记数据集Valid为输入,基于sigmoid/softmax激活函数的全连接神经网络进行;其中,二分类问题采用sigmoid激活函数,多分类问题采取softmax激活函数。
5.根据权利要求4所述的短文本分类方法,其特征在于,步骤6中所述分类模型的评估,在小规模标记数据集Test上进行分类实验,以精度、召回率和F1得分指标为度量;若模型的评估结果达不到预设的指标阈值,则返回步骤2,优化知识抽取,直至评估结果达到目标阈值,输出最优模型。
6.根据权利要求1所述的短文本分类方法,其特征在于,所述步骤1中的分词过程为,首先对所述的原始数据集Train、Dev、Valid、Test和知识库,进行查词典操作,生成所有可能的分词结果,之后查找分词产生词语出现的频率,以频率估计概率,选取最大概率的切分组合;所述的向量化则基于分词后的数据,进行词频统计,输出词频向量形式的数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南董因信息技术有限公司,未经湖南董因信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010211121.6/1.html,转载请声明来源钻瓜专利网。





