[发明专利]一种基于数据增强的主题建模方法有效
申请号: | 201810036105.0 | 申请日: | 2018-01-15 |
公开(公告)号: | CN108256055B | 公开(公告)日: | 2020-03-17 |
发明(设计)人: | 刘业政;朱婷婷;孙见山;姜元春;孙春华;杜非;熊强 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F16/36 |
代理公司: | 安徽省合肥新安专利代理有限责任公司 34101 | 代理人: | 陆丽莉;何梅生 |
地址: | 230009 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于数据增强的主题建模方法,其特征是按如下步骤进行:步骤一、获取文档集合并表示;步骤二、使用潜在狄利克雷分布模型抽取所述文档集合D的主题,得到K个主题‑词分布和|D|个文档主题分布;步骤三、对单词进行主题影响力赋值;步骤四、对每篇文档进行数据增强;步骤五、建立数据增强的主题模型,并得到最终的主题‑词分布。本发明能在数据稀疏情况下充分利用文档信息进行数据增强,从而提高主题质量。 | ||
搜索关键词: | 一种 基于 数据 增强 主题 建模 方法 | ||
【主权项】:
1.一种基于数据增强的主题建模方法,其特征是按如下步骤进行:步骤一、获取文档集合D={D1,…,Dd,…,D|D|},其中,Dd表示第d篇文档,1≤d≤|D|;假设所述第d篇文档Dd是由|S|个句子组成,则令第d篇文档Dd的句子集合为Sd={Sd,1,…,Sd,s,…,Sd,|S|},Sd,s表示第d篇文档Dd中第s个句子,1≤s≤|S|;假设所述第d篇文档Dd是N个单词组成,则令第d篇文档Dd的单词集合为
Wd,j表示第d篇文档Dd中第j个单词,1≤j≤Nd;则令所述文档集合D中所有单词构成单词集合W={W1,...,Wi,...,WV},Wi表示第i个单词,1≤i≤V;步骤二、使用潜在狄利克雷分布模型抽取所述文档集合D的主题,得到K个主题‑词分布φ={φ1,...,φk,...,φK}和|D|个文档‑主题分布θ={θ1,...,θd,...,θ|D|},其中,θd表示第d篇文档‑主题分布;φk表示第k个主题‑词分布,并有![]()
表示第v个单词,
表示第k个主题‑词分布中第v个单词
对应的概率,且
1≤v≤V,1≤k≤K;步骤三、主题影响力赋值:步骤3.1、在第k个主题‑词分布φk下选定L个重要单词,并在第k个主题‑词分布φk下选取概率排名前L名的单词![]()
表示第k个主题‑词分布φk下概率排名第l名的单词,1≤l≤L,从而得到K个主题‑词分布下概率排名前L名的单词集合
步骤3.2、判断第d篇文档Dd中第s个句子Sd,s是否包含单词集合
中的单词,若包含,则利用式(1)得到第s个句子Sd,s中第t个单词的主题影响力WTIt;若不包含,则令第s个句子Sd,s中每个单词的主题影响力为“1”;
式(1)中,σ是基准值,σ≥0,N1、N2和N3表示基准值的系数,且N1>N2>N3,a1和a2为正整数,且1<a1<a2<L;步骤3.3、根据步骤3.1和步骤3.2对所有文档中的所有句子进行处理,从而获得所有单词的主题影响力;步骤四、每篇文档增强:步骤4.1、将所述第d篇文档Dd的单词集合Wd中第j个单词Wd,j的初始权重设置为第j个单词Wd,j的主题影响力,利用textRank算法对所述第d篇文档Dd进行迭代计算,得到每个单词更新后的权重;对每个单词更新后的权重进行向上取整操作,得到每个单词的最终权重;步骤4.2、以每个单词的最终权重作为每个单词的重复个数,从而对所述第d篇文档Dd中的所有单词进行数据增强处理,得到增强后的第d篇文档
将所述增强后的第d篇文档
中所有新增的单词记为![]()
表示所述增强后的第d篇文档
中第j*个单词,
并将所有新增的单词
组成新增文档集的第d篇文档D′d,新增的文档集合D′={D′1,…,D′d,…,D′|D|},其中,D′d表示新增的第d篇文档;则新增的第d篇文档D′d的单词
与原始的第d篇文档Dd的单词集合Wd共同构成增强后的第d篇文档
从而得到增强后的文档集合
令所述增强后的文档集合D*中所有增强后的单词构成单词集合![]()
表示增强后的第u个单词,1≤u≤U;步骤五、建立数据增强的主题模型,并得到最终的主题‑词分布:步骤5.1、采用式(2)建立数据增强的主题模型的联合概率分布PDE‑LDA(W,W*,φ,Z,θ):
式(2)中,PDE‑LDA(W,W*,φ,Z,θ)表示|D|篇文档在主题编号集合Z、原始的单词集合W、新增的单词集合W*、K个主题‑单词分布φ和文档‑主题分布θ下的联合概率分布;Zd,j表示原始的第d篇文档Dd的单词集合Wd中第j个单词对应的主题编号,
表示新增文档集合D'的第d篇文档D′d中第j*个单词的主题编号,p(θd)表示第d篇文档‑主题分布θd对应的概率密度,p(φk)表示第k个主题‑词分布φk对应的概率密度,p(Zd,j=k|θd)表示在第d篇文档‑主题分布θd的条件下原始的第d篇文档Dd的单词集合Wd中第j个单词对应的主题编号Zd,j为第k个主题的概率,p(Wd,j|Zd,j=k,φk)表示在原始的第d篇文档Dd的单词集合Wd中第j个单词对应的主题编号Zd,j为第k个主题的条件下第d篇文档Dd中第j个单词Wd,j的概率;
表示在第d篇文档‑主题分布θd的条件下增强后的第d篇文档Dd'的单词集合
中第j*个单词对应的主题编号
为第k个主题的概率,
表示在增强后的第d篇文档Dd的单词集合
中第j*个单词对应的主题编号
为第k个主题的条件下第d篇文档Dd中第j*个单词
的概率;步骤5.2、利用式(3)所示的吉布斯抽样方法对所述原始的第d篇文档Dd的单词集合Wd和增强后的第d篇文档Dd的单词集合
进行主题抽取,得到最终的主题‑词分布:
式(3)中,Zd,q表示所述增强后的第d篇文档
中第q个单词对应的主题编号,Wd,‑q表示原始的第d篇文档Dd的单词集合Wd中除去当前第q个单词后的单词集合;
表示新增的第d篇文档Dd'的单词集合
中除去当前第q个单词后的单词集合,1≤q≤N+N*;
表示原始的第d篇文档Dd的单词集合Wd中属于第k个主题的单词数量,
表示新增的第d篇文档D'd的单词集合
中属于第k个主题的单词数量,αk是第k个主题的先验,nk,‑q表示第k个主题中去除当前第q个单词后,剩余的与第q个单词相同的单词数量,nk表示第k个主题中单词的总数目,β是单词的先验,V′是所述文档集合D*中所有不同单词的总数;
表示第k个主题最终的主题‑词分布。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810036105.0/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置