[发明专利]一种基于数据增强的主题建模方法有效
申请号: | 201810036105.0 | 申请日: | 2018-01-15 |
公开(公告)号: | CN108256055B | 公开(公告)日: | 2020-03-17 |
发明(设计)人: | 刘业政;朱婷婷;孙见山;姜元春;孙春华;杜非;熊强 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F16/36 |
代理公司: | 安徽省合肥新安专利代理有限责任公司 34101 | 代理人: | 陆丽莉;何梅生 |
地址: | 230009 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 增强 主题 建模 方法 | ||
本发明公开了一种基于数据增强的主题建模方法,其特征是按如下步骤进行:步骤一、获取文档集合并表示;步骤二、使用潜在狄利克雷分布模型抽取所述文档集合D的主题,得到K个主题‑词分布和|D|个文档主题分布;步骤三、对单词进行主题影响力赋值;步骤四、对每篇文档进行数据增强;步骤五、建立数据增强的主题模型,并得到最终的主题‑词分布。本发明能在数据稀疏情况下充分利用文档信息进行数据增强,从而提高主题质量。
技术领域
本发明属于数据挖掘领域,具体地说是一种基于数据增强的主题建模方法。
背景技术
随着社交媒体和移动互联网的发展,微博、即时信息等短文本充斥着互联网,使文本内容成为社交网络中最重要的元素之一。基于短文本内容的分析可以帮助我们分析用户兴趣、检测新兴话题、识别有趣内容、实时网络搜索等。当前对于文本内容的分析主流方法就是使用标准的主题模型如概率潜在语义分析模型和潜在狄利克雷分配方法挖掘正常文本内容,但在稀疏的短文本上依然具有挑战。
针对短文本特征的稀疏性问题,主要有三种处理方法来弥补短文本信息量少的缺陷,一是结合当前数据特点进行处理;二是对数据做出更强的假设;三是引入外部知识对短文本内容进行扩充。三种处理方法虽然能在一定程度上缓解短文本的特征稀疏性问题,但假设性太强,在数据源上或外部知识的选取上也会直接影响短文本特征的拓展与选择效果,并且这些方法还会增加许多额外的时间成本,不利于大规模数据的短文本特征拓展与选择。在数据稀疏情况下如何更好地挖掘现有信息的主题成为数据挖掘问题中的热点。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于数据增强的主题建模方法,以期能在数据稀疏情况下不引用外部知识只利用文档自身信息即可进行数据增强,从而提高短文档的主题质量。
为达到上述目的,本发明采用的技术方案为:
本发明一种基于数据增强的主题建模方法的特点是按如下步骤进行:
步骤一、获取文档集合D={D1,…,Dd,…,D|D|},其中,Dd表示第d篇文档,1≤d≤|D|;假设所述第d篇文档Dd是由|S|个句子组成,则令第d篇文档Dd的句子集合为Sd={Sd,1,…,Sd,s,…,Sd,|S|},Sd,s表示第d篇文档Dd中第s个句子,1≤s≤|S|;假设所述第d篇文档Dd是N个单词组成,则令第d篇文档Dd的单词集合为Wd,j表示第d篇文档Dd中第j个单词,1≤j≤Nd;则令所述文档集合D中所有单词构成单词集合W={W1,...,Wi,...,WV},Wi表示第i个单词,1≤i≤V;
步骤二、使用潜在狄利克雷分布模型抽取所述文档集合D的主题,得到K个主题-词分布φ={φ1,...,φk,...,φK}和|D|个文档-主题分布θ={θ1,...,θd,...,θ|D|},其中,θd表示第d篇文档-主题分布;φk表示第k个主题-词分布,并有表示第v个单词,表示第k个主题-词分布中第v个单词对应的概率,且1≤v≤V,1≤k≤K;
步骤三、主题影响力赋值:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810036105.0/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置