[发明专利]一种基于数据增强的主题建模方法有效

申请号：	201810036105.0	申请日：	2018-01-15
公开（公告）号：	CN108256055B	公开（公告）日：	2020-03-17
发明（设计）人：	刘业政;朱婷婷;孙见山;姜元春;孙春华;杜非;熊强	申请（专利权）人：	合肥工业大学
主分类号：	G06F40/216	分类号：	G06F40/216;G06F16/36
代理公司：	安徽省合肥新安专利代理有限责任公司 34101	代理人：	陆丽莉;何梅生
地址：	230009 安***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于数据增强的主题建模方法，其特征是按如下步骤进行：步骤一、获取文档集合并表示；步骤二、使用潜在狄利克雷分布模型抽取所述文档集合D的主题，得到K个主题‑词分布和\|D\|个文档主题分布；步骤三、对单词进行主题影响力赋值；步骤四、对每篇文档进行数据增强；步骤五、建立数据增强的主题模型，并得到最终的主题‑词分布。本发明能在数据稀疏情况下充分利用文档信息进行数据增强，从而提高主题质量。
搜索关键词：	一种基于数据增强主题建模方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于数据增强的主题建模方法，其特征是按如下步骤进行：步骤一、获取文档集合D＝{D₁,…,D_d,…,D_|D|}，其中，D_d表示第d篇文档，1≤d≤|D|；假设所述第d篇文档D_d是由|S|个句子组成，则令第d篇文档D_d的句子集合为S_d＝{S_d,1,…,S_d,s,…,S_d,|S|}，S_d,s表示第d篇文档D_d中第s个句子，1≤s≤|S|；假设所述第d篇文档D_d是N个单词组成，则令第d篇文档D_d的单词集合为W_d,j表示第d篇文档D_d中第j个单词，1≤j≤N_d；则令所述文档集合D中所有单词构成单词集合W＝{W₁,...,W_i,...,W_V}，W_i表示第i个单词，1≤i≤V；步骤二、使用潜在狄利克雷分布模型抽取所述文档集合D的主题，得到K个主题‑词分布φ＝{φ₁,...,φ_k,...,φ_K}和|D|个文档‑主题分布θ＝{θ₁,...,θ_d,...,θ_|D|}，其中，θ_d表示第d篇文档‑主题分布；φ_k表示第k个主题‑词分布，并有表示第v个单词，表示第k个主题‑词分布中第v个单词对应的概率，且1≤v≤V，1≤k≤K；步骤三、主题影响力赋值：步骤3.1、在第k个主题‑词分布φ_k下选定L个重要单词，并在第k个主题‑词分布φ_k下选取概率排名前L名的单词表示第k个主题‑词分布φ_k下概率排名第l名的单词，1≤l≤L，从而得到K个主题‑词分布下概率排名前L名的单词集合步骤3.2、判断第d篇文档D_d中第s个句子S_d,s是否包含单词集合中的单词，若包含，则利用式(1)得到第s个句子S_d,s中第t个单词的主题影响力WTI_t；若不包含，则令第s个句子S_d,s中每个单词的主题影响力为“1”；式(1)中，σ是基准值，σ≥0，N1、N2和N3表示基准值的系数，且N1＞N2＞N3，a1和a2为正整数，且1＜a1＜a2＜L；步骤3.3、根据步骤3.1和步骤3.2对所有文档中的所有句子进行处理，从而获得所有单词的主题影响力；步骤四、每篇文档增强：步骤4.1、将所述第d篇文档Dd的单词集合Wd中第j个单词Wd,j的初始权重设置为第j个单词Wd,j的主题影响力，利用textRank算法对所述第d篇文档Dd进行迭代计算，得到每个单词更新后的权重；对每个单词更新后的权重进行向上取整操作，得到每个单词的最终权重；步骤4.2、以每个单词的最终权重作为每个单词的重复个数，从而对所述第d篇文档D_d中的所有单词进行数据增强处理，得到增强后的第d篇文档将所述增强后的第d篇文档中所有新增的单词记为表示所述增强后的第d篇文档中第j^*个单词，并将所有新增的单词组成新增文档集的第d篇文档D′_d，新增的文档集合D′＝{D′₁,…,D′_d,…,D′_|D|}，其中，D′_d表示新增的第d篇文档；则新增的第d篇文档D′_d的单词与原始的第d篇文档D_d的单词集合W_d共同构成增强后的第d篇文档从而得到增强后的文档集合令所述增强后的文档集合D^*中所有增强后的单词构成单词集合表示增强后的第u个单词，1≤u≤U；步骤五、建立数据增强的主题模型，并得到最终的主题‑词分布：步骤5.1、采用式(2)建立数据增强的主题模型的联合概率分布PDE‑LDA(W,W*,φ,Z,θ)：式(2)中，P_DE‑LDA(W,W^*,φ,Z,θ)表示|D|篇文档在主题编号集合Z、原始的单词集合W、新增的单词集合W^*、K个主题‑单词分布φ和文档‑主题分布θ下的联合概率分布；Z_d,j表示原始的第d篇文档D_d的单词集合W_d中第j个单词对应的主题编号，表示新增文档集合D'的第d篇文档D′_d中第j^*个单词的主题编号，p(θ_d)表示第d篇文档‑主题分布θ_d对应的概率密度，p(φ_k)表示第k个主题‑词分布φ_k对应的概率密度，p(Z_d,j＝k|θ_d)表示在第d篇文档‑主题分布θ_d的条件下原始的第d篇文档D_d的单词集合W_d中第j个单词对应的主题编号Z_d,j为第k个主题的概率，p(W_d,j|Z_d,j＝k,φ_k)表示在原始的第d篇文档D_d的单词集合W_d中第j个单词对应的主题编号Z_d,j为第k个主题的条件下第d篇文档D_d中第j个单词W_d,j的概率；表示在第d篇文档‑主题分布θ_d的条件下增强后的第d篇文档D_d'的单词集合中第j^*个单词对应的主题编号为第k个主题的概率，表示在增强后的第d篇文档D_d的单词集合中第j^*个单词对应的主题编号为第k个主题的条件下第d篇文档D_d中第j^*个单词的概率；步骤5.2、利用式(3)所示的吉布斯抽样方法对所述原始的第d篇文档D_d的单词集合W_d和增强后的第d篇文档D_d的单词集合进行主题抽取，得到最终的主题‑词分布：式(3)中，Z_d,q表示所述增强后的第d篇文档中第q个单词对应的主题编号，W_d,‑q表示原始的第d篇文档D_d的单词集合W_d中除去当前第q个单词后的单词集合；表示新增的第d篇文档D_d'的单词集合中除去当前第q个单词后的单词集合，1≤q≤N+N^*；表示原始的第d篇文档D_d的单词集合W_d中属于第k个主题的单词数量，表示新增的第d篇文档D'_d的单词集合中属于第k个主题的单词数量，α_k是第k个主题的先验，n_k,‑q表示第k个主题中去除当前第q个单词后，剩余的与第q个单词相同的单词数量，n_k表示第k个主题中单词的总数目，β是单词的先验，V′是所述文档集合D^*中所有不同单词的总数；表示第k个主题最终的主题‑词分布。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于合肥工业大学，未经合肥工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810036105.0/，转载请声明来源钻瓜专利网。

上一篇：基于tri-training的汽车行业潜在客户识别方法
下一篇：智能问答方法与系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于数据增强的主题建模方法有效

专利文献下载