[发明专利]一种基于数据增强的主题建模方法有效

专利信息
申请号: 201810036105.0 申请日: 2018-01-15
公开(公告)号: CN108256055B 公开(公告)日: 2020-03-17
发明(设计)人: 刘业政;朱婷婷;孙见山;姜元春;孙春华;杜非;熊强 申请(专利权)人: 合肥工业大学
主分类号: G06F40/216 分类号: G06F40/216;G06F16/36
代理公司: 安徽省合肥新安专利代理有限责任公司 34101 代理人: 陆丽莉;何梅生
地址: 230009 安*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于数据增强的主题建模方法,其特征是按如下步骤进行:步骤一、获取文档集合并表示;步骤二、使用潜在狄利克雷分布模型抽取所述文档集合D的主题,得到K个主题‑词分布和|D|个文档主题分布;步骤三、对单词进行主题影响力赋值;步骤四、对每篇文档进行数据增强;步骤五、建立数据增强的主题模型,并得到最终的主题‑词分布。本发明能在数据稀疏情况下充分利用文档信息进行数据增强,从而提高主题质量。
搜索关键词: 一种 基于 数据 增强 主题 建模 方法
【主权项】:
1.一种基于数据增强的主题建模方法,其特征是按如下步骤进行:步骤一、获取文档集合D={D1,…,Dd,…,D|D|},其中,Dd表示第d篇文档,1≤d≤|D|;假设所述第d篇文档Dd是由|S|个句子组成,则令第d篇文档Dd的句子集合为Sd={Sd,1,…,Sd,s,…,Sd,|S|},Sd,s表示第d篇文档Dd中第s个句子,1≤s≤|S|;假设所述第d篇文档Dd是N个单词组成,则令第d篇文档Dd的单词集合为Wd,j表示第d篇文档Dd中第j个单词,1≤j≤Nd;则令所述文档集合D中所有单词构成单词集合W={W1,...,Wi,...,WV},Wi表示第i个单词,1≤i≤V;步骤二、使用潜在狄利克雷分布模型抽取所述文档集合D的主题,得到K个主题‑词分布φ={φ1,...,φk,...,φK}和|D|个文档‑主题分布θ={θ1,...,θd,...,θ|D|},其中,θd表示第d篇文档‑主题分布;φk表示第k个主题‑词分布,并有表示第v个单词,表示第k个主题‑词分布中第v个单词对应的概率,且1≤v≤V,1≤k≤K;步骤三、主题影响力赋值:步骤3.1、在第k个主题‑词分布φk下选定L个重要单词,并在第k个主题‑词分布φk下选取概率排名前L名的单词表示第k个主题‑词分布φk下概率排名第l名的单词,1≤l≤L,从而得到K个主题‑词分布下概率排名前L名的单词集合步骤3.2、判断第d篇文档Dd中第s个句子Sd,s是否包含单词集合中的单词,若包含,则利用式(1)得到第s个句子Sd,s中第t个单词的主题影响力WTIt;若不包含,则令第s个句子Sd,s中每个单词的主题影响力为“1”;式(1)中,σ是基准值,σ≥0,N1、N2和N3表示基准值的系数,且N1>N2>N3,a1和a2为正整数,且1<a1<a2<L;步骤3.3、根据步骤3.1和步骤3.2对所有文档中的所有句子进行处理,从而获得所有单词的主题影响力;步骤四、每篇文档增强:步骤4.1、将所述第d篇文档Dd的单词集合Wd中第j个单词Wd,j的初始权重设置为第j个单词Wd,j的主题影响力,利用textRank算法对所述第d篇文档Dd进行迭代计算,得到每个单词更新后的权重;对每个单词更新后的权重进行向上取整操作,得到每个单词的最终权重;步骤4.2、以每个单词的最终权重作为每个单词的重复个数,从而对所述第d篇文档Dd中的所有单词进行数据增强处理,得到增强后的第d篇文档将所述增强后的第d篇文档中所有新增的单词记为表示所述增强后的第d篇文档中第j*个单词,并将所有新增的单词组成新增文档集的第d篇文档D′d,新增的文档集合D′={D′1,…,D′d,…,D′|D|},其中,D′d表示新增的第d篇文档;则新增的第d篇文档D′d的单词与原始的第d篇文档Dd的单词集合Wd共同构成增强后的第d篇文档从而得到增强后的文档集合令所述增强后的文档集合D*中所有增强后的单词构成单词集合表示增强后的第u个单词,1≤u≤U;步骤五、建立数据增强的主题模型,并得到最终的主题‑词分布:步骤5.1、采用式(2)建立数据增强的主题模型的联合概率分布PDE‑LDA(W,W*,φ,Z,θ):式(2)中,PDE‑LDA(W,W*,φ,Z,θ)表示|D|篇文档在主题编号集合Z、原始的单词集合W、新增的单词集合W*、K个主题‑单词分布φ和文档‑主题分布θ下的联合概率分布;Zd,j表示原始的第d篇文档Dd的单词集合Wd中第j个单词对应的主题编号,表示新增文档集合D'的第d篇文档D′d中第j*个单词的主题编号,p(θd)表示第d篇文档‑主题分布θd对应的概率密度,p(φk)表示第k个主题‑词分布φk对应的概率密度,p(Zd,j=k|θd)表示在第d篇文档‑主题分布θd的条件下原始的第d篇文档Dd的单词集合Wd中第j个单词对应的主题编号Zd,j为第k个主题的概率,p(Wd,j|Zd,j=k,φk)表示在原始的第d篇文档Dd的单词集合Wd中第j个单词对应的主题编号Zd,j为第k个主题的条件下第d篇文档Dd中第j个单词Wd,j的概率;表示在第d篇文档‑主题分布θd的条件下增强后的第d篇文档Dd'的单词集合中第j*个单词对应的主题编号为第k个主题的概率,表示在增强后的第d篇文档Dd的单词集合中第j*个单词对应的主题编号为第k个主题的条件下第d篇文档Dd中第j*个单词的概率;步骤5.2、利用式(3)所示的吉布斯抽样方法对所述原始的第d篇文档Dd的单词集合Wd和增强后的第d篇文档Dd的单词集合进行主题抽取,得到最终的主题‑词分布:式(3)中,Zd,q表示所述增强后的第d篇文档中第q个单词对应的主题编号,Wd,‑q表示原始的第d篇文档Dd的单词集合Wd中除去当前第q个单词后的单词集合;表示新增的第d篇文档Dd'的单词集合中除去当前第q个单词后的单词集合,1≤q≤N+N*表示原始的第d篇文档Dd的单词集合Wd中属于第k个主题的单词数量,表示新增的第d篇文档D'd的单词集合中属于第k个主题的单词数量,αk是第k个主题的先验,nk,‑q表示第k个主题中去除当前第q个单词后,剩余的与第q个单词相同的单词数量,nk表示第k个主题中单词的总数目,β是单词的先验,V′是所述文档集合D*中所有不同单词的总数;表示第k个主题最终的主题‑词分布。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810036105.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top