[发明专利]一种基于数据增强的主题建模方法有效

专利信息
申请号: 201810036105.0 申请日: 2018-01-15
公开(公告)号: CN108256055B 公开(公告)日: 2020-03-17
发明(设计)人: 刘业政;朱婷婷;孙见山;姜元春;孙春华;杜非;熊强 申请(专利权)人: 合肥工业大学
主分类号: G06F40/216 分类号: G06F40/216;G06F16/36
代理公司: 安徽省合肥新安专利代理有限责任公司 34101 代理人: 陆丽莉;何梅生
地址: 230009 安*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 数据 增强 主题 建模 方法
【说明书】:

发明公开了一种基于数据增强的主题建模方法,其特征是按如下步骤进行:步骤一、获取文档集合并表示;步骤二、使用潜在狄利克雷分布模型抽取所述文档集合D的主题,得到K个主题‑词分布和|D|个文档主题分布;步骤三、对单词进行主题影响力赋值;步骤四、对每篇文档进行数据增强;步骤五、建立数据增强的主题模型,并得到最终的主题‑词分布。本发明能在数据稀疏情况下充分利用文档信息进行数据增强,从而提高主题质量。

技术领域

本发明属于数据挖掘领域,具体地说是一种基于数据增强的主题建模方法。

背景技术

随着社交媒体和移动互联网的发展,微博、即时信息等短文本充斥着互联网,使文本内容成为社交网络中最重要的元素之一。基于短文本内容的分析可以帮助我们分析用户兴趣、检测新兴话题、识别有趣内容、实时网络搜索等。当前对于文本内容的分析主流方法就是使用标准的主题模型如概率潜在语义分析模型和潜在狄利克雷分配方法挖掘正常文本内容,但在稀疏的短文本上依然具有挑战。

针对短文本特征的稀疏性问题,主要有三种处理方法来弥补短文本信息量少的缺陷,一是结合当前数据特点进行处理;二是对数据做出更强的假设;三是引入外部知识对短文本内容进行扩充。三种处理方法虽然能在一定程度上缓解短文本的特征稀疏性问题,但假设性太强,在数据源上或外部知识的选取上也会直接影响短文本特征的拓展与选择效果,并且这些方法还会增加许多额外的时间成本,不利于大规模数据的短文本特征拓展与选择。在数据稀疏情况下如何更好地挖掘现有信息的主题成为数据挖掘问题中的热点。

发明内容

本发明是为了解决上述现有技术存在的不足之处,提出一种基于数据增强的主题建模方法,以期能在数据稀疏情况下不引用外部知识只利用文档自身信息即可进行数据增强,从而提高短文档的主题质量。

为达到上述目的,本发明采用的技术方案为:

本发明一种基于数据增强的主题建模方法的特点是按如下步骤进行:

步骤一、获取文档集合D={D1,…,Dd,…,D|D|},其中,Dd表示第d篇文档,1≤d≤|D|;假设所述第d篇文档Dd是由|S|个句子组成,则令第d篇文档Dd的句子集合为Sd={Sd,1,…,Sd,s,…,Sd,|S|},Sd,s表示第d篇文档Dd中第s个句子,1≤s≤|S|;假设所述第d篇文档Dd是N个单词组成,则令第d篇文档Dd的单词集合为Wd,j表示第d篇文档Dd中第j个单词,1≤j≤Nd;则令所述文档集合D中所有单词构成单词集合W={W1,...,Wi,...,WV},Wi表示第i个单词,1≤i≤V;

步骤二、使用潜在狄利克雷分布模型抽取所述文档集合D的主题,得到K个主题-词分布φ={φ1,...,φk,...,φK}和|D|个文档-主题分布θ={θ1,...,θd,...,θ|D|},其中,θd表示第d篇文档-主题分布;φk表示第k个主题-词分布,并有表示第v个单词,表示第k个主题-词分布中第v个单词对应的概率,且1≤v≤V,1≤k≤K;

步骤三、主题影响力赋值:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810036105.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top