[发明专利]文献分类方法、装置、设备及存储介质在审

专利信息
申请号: 201910295898.2 申请日: 2019-04-12
公开(公告)号: CN110008342A 公开(公告)日: 2019-07-12
发明(设计)人: 牛牧遥;蔡洁;黑马 申请(专利权)人: 智慧芽信息科技(苏州)有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06N3/04
代理公司: 北京品源专利代理有限公司 11332 代理人: 孟金喆
地址: 215000 江苏省苏州市苏州工*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 类别标签 文本信息 文献分类 分类 存储介质 神经网络处理 分类体系 神经网络 自动分类 神经网
【权利要求书】:

1.一种文献分类方法,其特征在于,包括:

获取待分类文献的文本信息以及类别标签信息;其中,类别标签信息为设定分类体系中描述文献类别的信息;

对所述文本信息和所述类别标签信息进行设定神经网络处理,并根据所述设定神经网络的处理结果确定所述文献的分类。

2.根据权利要求1所述的方法,其特征在于,所述设定神经网络包括深度子网络、宽度子网络和全连接子网络;所述全连接子网络分别与所述深度子网络和所述宽度子网络连接;对所述文本信息和所述类别标签信息进行设定神经网络处理,包括:

将所述文本信息输入所述深度子网络获得文本向量;

将所述文本信息和所述类别标签信息输入所述宽度子网络,获得所述文本信息和所述类别标签信息间的文本相关度向量;所述文本相关度向量是由文本信息和各类别标签信息的文本相关度组成的向量;

将所述文本向量和所述文本相关度向量输入所述全连接子网络,获得处理结果。

3.根据权利要求2所述的方法,其特征在于,所述深度子网络包括嵌入层和至少一个非线性层;将所述文本信息输入所述深度子网络获得文本向量,包括:

所述嵌入层对所述文本信息进行分析,获得多个词向量;

所述至少一个非线性层对所述多个词向量进行非线性变换,获得文本向量。

4.根据权利要求2所述的方法,其特征在于,将所述文本信息和所述类别标签信息输入所述宽度子网络,获得所述文本信息和所述类别标签信息间的文本相关度向量,包括:

所述宽度子网络按照设定方式对所述文本信息和所述类别标签信息处理,获得文本相关度向量;所述设定方式包括:bm25算法或者向量空间模型。

5.根据权利要求4所述的方法,其特征在于,按照所述向量空间模型对所述文本信息和所述类别标签信息处理,获得文本相关度,包括:

获取所述文本信息和所述类别标签信息分别对应的词向量;

计算所述词向量间的距离获得文本相关度。

6.根据权利要求2所述的方法,其特征在于,所述全连接子网络包括拼接层和激活层;将所述文本向量和所述文本相关度向量输入所述全连接子网络,获得处理结果,包括:

所述拼接层将所述文本向量和文本相关度向量拼接,并将拼接后的向量与权重矩阵相乘,获得权重向量;

所述激活层采用激活函数对所述权重向量处理,获得所述文献对应的类别概率向量;其中,所述类别概率向量中的概率与类别标签具有一一对应关系。

7.根据权利要求1-6任一项所述的方法,其特征在于,在获取待分类文献的文本信息以及类别标签信息之前,还包括:

获取文献样本集及类别标签信息;所述文献样本集包括多个文献和各文献分别对应的真实类别概率向量;所述文献包括专利文献或者非专利文献;

基于所述文献样本集及类别标签信息对设定神经网络进行训练。

8.根据权利要求7所述的方法,其特征在于,当文献为非专利文献时,获取文献样本集及类别标签信息,包括:

根据所述非专利文献与专利文献的引用关系,将所述专利文献的分类信息自动标注为所述非专利文献的分类信息。

9.根据权利要求8所述的方法,其特征在于,获取文献样本集及类别标签信息,还包括:

按照关键词计算算法提取非专利文献对应各类别的优选关键词;

并根据所述优选关键词对类别标签信息进行更新。

10.根据权利要求9所述的方法,其特征在于,关键词计算算法可以是:

计算出非专利文献按照各个类别的TF-IDF最高的一个或多个词,作为优选关键词;

根据优选关键词对各个类别标签信息进行更新。

11.根据权利要求9所述的方法,其特征在于,关键词计算算法可以是:

用词嵌入层表示的最相似的词来扩展标签描述,所述嵌入层是在非专利文献上训练的词到向量的转换。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于智慧芽信息科技(苏州)有限公司,未经智慧芽信息科技(苏州)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910295898.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top