[发明专利]一种基于深度学习的文档主题向量抽取方法有效

专利信息
申请号: 201810748564.1 申请日: 2018-07-10
公开(公告)号: CN108984526B 公开(公告)日: 2021-05-07
发明(设计)人: 高扬;黄河燕;陆池 申请(专利权)人: 北京理工大学
主分类号: G06F40/30 分类号: G06F40/30;G06F40/258;G06F40/284;G06N3/04;G06N3/08
代理公司: 北京正阳理工知识产权代理事务所(普通合伙) 11639 代理人: 唐华
地址: 100081 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 学习 文档 主题 向量 抽取 方法
【说明书】:

发明涉及一种基于深度学习的文档主题向量抽取方法,属于自然语言处理技术领域。本发明方法利用卷积神经网络抽取出具有局部的深层的语义信息,利用LSTM模型将时序信息学习出来,使得向量的语义更加全面,选用上下文短语和文档主题的隐含的共现关系,避免了一些基于句子的主题向量模型对于短文本的缺点,利用注意力机制将CNN和LSTM模型有机的结合起来,学习了上下文的深层语义、时序信息和显著信息,更有效的构建了档主题向量抽取的模型。

技术领域

本发明涉及一种基于深度学习的文档主题向量抽取方法,属于自然语言处理技术领域。

背景技术

在如今的大数据时代,如何发现海量互联网文本数据的主题是-个研究重点。对文本数据的主题进行分析,文档主题向量本质上是表示文档的深层语义,是主题和语义的内在结合。抽取出文档主题向量可以广泛的应用于自然语言处理任务中,包括社交网络和新媒体的舆情分析、新闻热点的及时获取等等。因此,如何高效的抽取出文档主题向量是-个重要研究课题。

对于文本数据而言,其主题并不一定直接体现在具体的文字内容上,这就使得挖掘文本隐含的主题变得困难,需要根据文本的单词、句子、段落等关系来提取出文档所包含的主题意义,并结合文档的篇章关系从而提取出文档的主题。近些年随着统计自然语言处理方法和语料库的丰富,基于“词语-主题”“文档-主题”的文本主题建模方法也相继被提出,其基本思想在于假设每个词语和文档的主题是服从一个统计概率分布,通过对语料数据的训练,计算出其文档主题的概率分布,然后再根据这个文档主题进行聚类。

要正确分析出每个文档的主题,传统方法是对文本的每个词都进行主题分析,但是这种方法存在一个很大的问题:真正决定文本主题的词语其实只占该文本词语的少部分,因此传统方法会对与主题无关的词语进行大量的分析,这一方面无关词语导致实现起来计算量大,另一方面也存在着对于文本主题提取不精确,不能结合文本内在关联度关系挖掘文本深层语义的问题。

随着硬件性能的提升以及数据规模的不断扩大,深度学习亦被广泛应用于各个领域之中,在其原有基础上大幅度提升了实验结果。深度学习以其优雅的模型、灵活的架构等特点,近些年结合单词Embedding和文档Embedding的方法中,得到了广泛的运用。在所有的深度学习方法中,CNN(Convolutional Neural Network,卷积神经网络)和LSTM模型(LongShort-Term Memory,长短期记忆网络模型)是最主流的两个。在自然语言处理任务中,基于CNN和LSTM模型的文本分析方法能够很好的发现文本的潜在语义特征,在语义分析计算上给予诸如自动文摘、情感分析、机器翻译等自然语言处理任务极大的帮助。

发明内容

本发明的目的是为了克服现有技术的缺陷,解决如何结合文本内在关联度关系挖掘文本深层语义的问题,提出一种基于深度学习的文档主题向量抽取方法。本发明把文档主题向量建模更多的聚焦在对文档主题特征向量的分析上,挖掘出文本特征和主题向量隐含的相关性,从而学习文档主题向量。

本发明的核心思想为:利用CNN提取上下文短语的语义,将提取出来的语义输入到LSTM模型中,利用注意力机制提取文本的不同位置和不同意义词语的重要性,从而保留了重要信息,也完成了CNN和LSTM模型的有机结合,挖掘出上下文之间的内在关联,学习了具有深层语义和显著的文档主题向量。

本发明方法是通过下述技术方案实现的。

一种基于深度学习的文档主题向量抽取方法,包括以下步骤:

步骤一、进行相关定义,具体如下:

定义1:文档D,D=[w1,w2,...,wi,...,wn],wi表示文档D的第i个单词;

定义2:预测单词wd+1,表示需要学习的目标单词;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810748564.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top