[发明专利]一种基于深度学习的文档主题向量抽取方法有效
| 申请号: | 201810748564.1 | 申请日: | 2018-07-10 |
| 公开(公告)号: | CN108984526B | 公开(公告)日: | 2021-05-07 |
| 发明(设计)人: | 高扬;黄河燕;陆池 | 申请(专利权)人: | 北京理工大学 |
| 主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/258;G06F40/284;G06N3/04;G06N3/08 |
| 代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 唐华 |
| 地址: | 100081 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明涉及一种基于深度学习的文档主题向量抽取方法,属于自然语言处理技术领域。本发明方法利用卷积神经网络抽取出具有局部的深层的语义信息,利用LSTM模型将时序信息学习出来,使得向量的语义更加全面,选用上下文短语和文档主题的隐含的共现关系,避免了一些基于句子的主题向量模型对于短文本的缺点,利用注意力机制将CNN和LSTM模型有机的结合起来,学习了上下文的深层语义、时序信息和显著信息,更有效的构建了档主题向量抽取的模型。 | ||
| 搜索关键词: | 一种 基于 深度 学习 文档 主题 向量 抽取 方法 | ||
【主权项】:
1.一种基于深度学习的文档主题向量抽取方法,其特征在于,包括以下步骤:步骤一、进行相关定义,具体如下:定义1:文档D,D=[w1,w2,...,wi,...,wn],wi表示文档D的第i个单词;定义2:预测单词wd+1;,表示需要学习的目标单词;定义3:窗口单词,由文本中连续出现的单词构成,窗口单词之间存在隐藏的内在关联;定义4:上下文短语:wd‑l,wd‑l+1,...,wd,表示预测单词所在位置之前出现的窗口单词,上下文短语长度为l;定义5:文档主题映射矩阵,通过LDA算法学习得到,每一行代表一个文档的主题;定义6:Nd和docid,Nd表示语料中文档的个数,docid表示文档的位置;每一个文档对应唯一的一个docid,其中,1≤docid≤Nd;步骤二、利用卷积神经网络CNN,学习得到上下文短语的语义向量;步骤三、利用长短期记忆网络模型LSTM学习上下文短语的语义,获得隐含层向量hd‑l,hd‑l+1,...,hd;具体实现过程如下:步骤3.1将t赋值d‑l,即t=d‑l,t表示第t时刻;步骤3.2将xt赋值wt的词向量,xt表示第t时刻输入的词向量,wt表示第t时刻输入的单词;其中,wt的词向量通过步骤2.1输出的词向量矩阵映射得到,即抽取wt在向量矩阵M对应位置的词向量;步骤3.3将xt作为LSTM模型的输入,获得t时刻的隐含层向量ht;步骤3.4判断t是否等于d,若不等于则t加1,跳步骤3.2;若等于,则输出隐含层向量hd‑l,hd‑l+1,...,hd,跳入步骤四;步骤四、通过注意力机制,将CNN和LSTM模型有机结合,获得上下文短语语义向量的平均值
具体实现方法如下:步骤4.1利用步骤二得到的上下文短语语义向量,通过注意力机制得到每个单词在上下文短语的语义向量上的重要性因子α,具体通过如下公式计算:
d‑l≤t≤dα=[αd‑l,αd‑l+1,...,αd]其中,αt表示t时刻单词在上下文短语的语义向量上的重要性因子,Context表示步骤二中获得的上下文短语的语义向量,xt表示第t时刻输入的词向量,xi表示第i时刻输入的词向量;T表示向量的转置;e表示以e,即自然常数为底的指数函数;步骤4.2计算基于注意力机制带权重的隐含层向量h′,通过如下公式计算;ht′=αt*htd‑l≤t≤dh′=[h′d‑l,h′d‑l+1,...,hd′]其中,ht′表示t时刻权重隐含层向量ht′,αt表示t时刻每个单词在上下文短语的语义向量上的重要性因子,ht表示t时刻隐含层向量;步骤4.3利用mean‑pooling操作,计算上下文短语语义向量的平均值
通过如下公式(10)计算:
其中,ht′表示t时刻权重隐含层向量ht′;步骤五、通过逻辑回归的方法,利用上下文短语语义向量的平均值
和文档主题信息预测目标单词wd+1,获得目标单词wd+1的预测概率。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810748564.1/,转载请声明来源钻瓜专利网。





