[发明专利]文献分类方法、装置、设备及存储介质在审
申请号: | 201910295898.2 | 申请日: | 2019-04-12 |
公开(公告)号: | CN110008342A | 公开(公告)日: | 2019-07-12 |
发明(设计)人: | 牛牧遥;蔡洁;黑马 | 申请(专利权)人: | 智慧芽信息科技(苏州)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/04 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 215000 江苏省苏州市苏州工*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 类别标签 文本信息 文献分类 分类 存储介质 神经网络处理 分类体系 神经网络 自动分类 神经网 | ||
本发明实施例公开了一种文献分类方法、装置、设备及存储介质。包括:获取待分类文献的文本信息以及类别标签信息;其中,类别标签信息为设定分类体系中描述文献类别的信息;对所述文本信息和所述类别标签信息进行设定神经网络处理,并根据所述设定神经网络的处理结果确定所述文献的分类。本发明实施例提供的文献分类方法,采用设定神经网对文本信息和类别标签信息同时进行处理,获得文献的分类,相对于现有技术,不只是基于文本信息对文献进行分类,实现对文献的自动分类,提高对文献分类的准确性。
技术领域
本发明实施例涉及文献分类技术领域,尤其涉及一种文献分类方法、装置、设备及存储介质。
背景技术
随着专利及非专利文本等数字文献数量的不断增加,对数字文献按照一定分类体系进行分类,显得越来越重要。其中,常用的分类体系包括联合专利分类体系(CooperativePatent Classification,CPC)和国际专利分类体系(International PatentClassification,IPC)等。目前,对文献分类工作的大部分仍由专业人士手动完成,费时又费力。因此,急需要一种能够自动完成对文献分类的方法。
相关技术中,采用如下两种方式实现对文献的自动分类:一种是采用传统的机器学习模型,如支持向量机(Support Vector Machine,SVM))实现文献的分类。另一种是采用深度学习模型,如卷积神经网络(convolutional neural network,CNN)、递归神经网络(recurrent neural network,RNN)对文献分类。但是,这两种方法都只是基于文献的文本信息进行分类,准确度不高。
发明内容
本发明实施例提供一种文献分类方法、装置、设备及存储介质,以实现对文献的自动分类,可以提高对文献分类的准确性。
第一方面,本发明实施例提供了一种文献分类方法,该方法包括:
获取待分类文献的文本信息以及类别标签信息;其中,类别标签信息为设定分类体系中描述文献类别的信息;
对所述文本信息和所述类别标签信息进行设定神经网络处理,并根据所述设定神经网络的处理结果确定所述文献的分类。
进一步地,所述设定神经网络包括深度子网络、宽度子网络和全连接子网络;所述全连接子网络分别与所述深度子网络和所述宽度子网络连接;对所述文本信息和所述类别标签信息进行设定神经网络处理,包括:
将所述文本信息输入所述深度子网络获得文本向量;
将所述文本信息和所述类别标签信息输入所述宽度子网络,获得所述文本信息和所述类别标签信息间的文本相关度向量;所述文本相关度向量是由文本信息和各类别标签信息的文本相关度组成的向量;
将所述文本向量和所述文本相关度向量输入所述全连接子网络,获得处理结果。
进一步地,所述深度子网络包括嵌入层和至少一个非线性层;将所述文本信息输入所述深度子网络获得文本向量,包括:
所述嵌入层对所述文本信息进行分析,获得多个词向量;
所述至少一个非线性层对所述多个词向量进行非线性变换,获得文本向量。
进一步地,将所述文本信息和所述类别标签信息输入所述宽度子网络,获得所述文本信息和所述类别标签信息间的文本相关度向量,包括:
所述宽度子网络按照设定方式对所述文本信息和所述类别标签信息处理,获得文本相关度向量;所述设定方式包括:bm25算法或者向量空间模型。
进一步地,按照所述向量空间模型对所述文本信息和所述类别标签信息处理,获得文本相关度,包括:
获取所述文本信息和所述类别标签信息分别对应的词向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于智慧芽信息科技(苏州)有限公司,未经智慧芽信息科技(苏州)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910295898.2/2.html,转载请声明来源钻瓜专利网。