[发明专利]一种特征词驱动的文本多标签层次分类方法和系统在审
申请号: | 202010553491.8 | 申请日: | 2020-06-17 |
公开(公告)号: | CN112115259A | 公开(公告)日: | 2020-12-22 |
发明(设计)人: | 江航;苗仲辰;王晨宇;林越峰;倪梦珺;高剑;史光伟;鲁继东 | 申请(专利权)人: | 上海金融期货信息技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06N3/08 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 施浩 |
地址: | 200122 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 特征 驱动 文本 标签 层次 分类 方法 系统 | ||
1.一种特征词驱动的文本多标签层次分类方法,其特征在于,方法包括:
步骤1:针对目标语料集构建出异构信息网络,其中构建网络的数据来源包括无标签数据集、带特征词的标签层级结构;
步骤2:学习所构建的异构信息网络中的节点表示,将其中的部分节点表示指定为词向量并进行归一化处理;
步骤3:基于归一化后的词向量进行主题建模;
步骤4:基于主题建模生成多标签伪文档;
步骤5:基于多标签伪文档进行分类器的预训练;
步骤6:利用无标签语料实现对全局分类器进行包括文本标签置信度过滤以及标签归一化的自训练过程,得到可以解决文本多标签层次分类问题的分类模型的最终输出结果。
2.根据权利要求1所述的特征词驱动的文本多标签层次分类方法,其特征在于,步骤1中在构建异构信息网络的过程中,还包括定义包括节点、模式、边的异构信息网络的属性。
3.根据权利要求1所述的特征词驱动的文本多标签层次分类方法,其特征在于,步骤2中进一步包括:
采用包括ESim算法在内的网络学习算法学习异构信息网络中的全部类型的节点表示,将其中一种类型的节点表示指定为词向量;
将词向量进行归一化处理。
4.根据权利要求1所述的特征词驱动的文本多标签层次分类方法,其特征在于,步骤3中进一步包括:
扩充特征词,基于相似度的高低,将单一特征词扩充为一个特征词集合;
在特征词集合的基础上,通过包括混合冯·米塞斯分布在内的建模方法对每个类别标签进行主题建模。
5.根据权利要求1所述的特征词驱动的文本多标签层次分类方法,其特征在于,步骤4进一步包括:
从主题建模的主题分布中随机抽取多个文本向量;
基于相似度计算,对每个文本向量都构建对应的词典;
基于词典,通过文档词汇分布和背景词汇概率分布计算伪文档的内容;
根据伪文档的内容确定伪文档的多个标签。
6.根据权利要求1所述的特征词驱动的文本多标签层次分类方法,其特征在于,步骤5进一步包括:
预训练局部分类器:将伪文档标签数据输入到神经网络模型得到多个预训练的局部分类器;
将多个局部分类器聚合为全局分类器:从标签层级结构的根节点出发,到叶子节点级为止,自顶向下地集成全部局部分类器,构建出一个全局分类器。
7.根据权利要求1所述的特征词驱动的文本多标签层次分类方法,其特征在于,步骤6进一步包括:
利用训练好的全局分类器对无标签数据进行标注;
计算每条文本的标签置信度,仅当标签置信度大于设定阈值时,对应的数据才会被作为自训练的标签数据;
进行标签归一化的处理;
利用经过上述步骤的标签数据继续训练全局分类器,当分类结果的变化大于设定阈值时返回到利用训练好的全局分类器对无标签数据进行标注的步骤,否则结束训练,得到模型结果。
8.一种特征词驱动的文本多标签层次分类系统,其特征在于,系统包括:
处理器;以及
存储器,所述存储器被配置为存储一系列计算机可执行的指令以及与所述一系列计算机可执行的指令相关联的计算机可访问的数据,
其中,当所述一系列计算机可执行的指令被所述处理器执行时,使得所述处理器进行如权利要求1至7中任一项所述的方法。
9.一种非临时性计算机可读存储介质,其特征在于,所述非临时性计算机可读存储介质上存储有一系列计算机可执行的指令,当所述一系列可执行的指令被计算装置执行时,使得计算装置进行如权利要求1至7中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海金融期货信息技术有限公司,未经上海金融期货信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010553491.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:图形处理系统中的粗略深度测试
- 下一篇:显示面板和显示装置