[发明专利]基于主题的社交媒体短文本在线聚类方法在审
申请号: | 201810937692.0 | 申请日: | 2018-08-17 |
公开(公告)号: | CN109086443A | 公开(公告)日: | 2018-12-25 |
发明(设计)人: | 费高雷;蒋勇;许舟军;胡光岷 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 成都虹盛汇泉专利代理有限公司 51268 | 代理人: | 王伟 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 聚类 在线聚类 短文本 文本 贝叶斯推断 平滑技术 传统的 归一化 区分度 准确率 预聚 聚合 词语 清晰 | ||
本发明公开一种基于主题的社交媒体短文本在线聚类方法,本发明采用保守的预聚类方法将文本预先聚合成长文本,增强了词语之间的共现关系,提取的主题更加清晰、区分度更高;并且使用平滑技术和归一化技术的贝叶斯推断方法,具有新主题判别功能,基于此实现的在线增量聚类方法,效率比非增量聚类方法更高,与传统的在线增量聚类方法相比,准确率更高,主题数量更接近真实值。
技术领域
本发明属于社交媒体的语义分析领域,特别涉及一种文本聚类技术。
背景技术
随着网络技术和移动互联网的飞速发展,全球数据量呈现爆炸式增长,消息交互变得前所未有的高效,搜索引擎已经不再是互联网第一流量来源,取而代之的是社交媒体。社交媒体对于用户来说仅仅是探索世界、分享自我的工具,但是社交媒体庞大的用户数量和信息自发传播的特性,使得社交媒体的潜在价值远远超过了产品最初的定位。
作为大数据分析的研究方向之一,社交媒体的语义分析是近几年的新兴学科,它涉及到社交网络分析、机器学习、数据挖掘、信息检索及自然语言处理等方面。与传统标准文本不同,社交媒体文本涉及到不同参与者的互动,在非正式环境中,用户随心所欲的持续生成大量文本。正因如此,社交媒体文本具有数量大、噪声多、拼写不规范以及非结构化等特点,社交媒体的预处理难度远大于传统文本。而且社交媒体普遍文本较短,语义极度缺失,再加上噪声导致的“长尾现象”,社交媒体文本的语义度量和聚类分析也面临着巨大挑战。
在文本聚类领域,根据结果的可解释性可将现有的技术大致分为三类,基于隐性语义模型的聚类方法,基于半显性语义模型的聚类方法,基于显性语义模型的聚类方法。隐性语义模型将文本语义映射到语义空空间的隐性向量上,计算向量相似度,再采用合适的聚类方法,但是社交媒体以短文本为主,文本稀疏,语义模糊,此类方法可解释性较差,在短文本上的性能表现一般。显性语义模型是基于大规模知识语料库的方法,大规模知识语料库的构建也是一个相当复杂和漫长的过程。半显性语义模型中代表性方法有隐狄利克雷分布(LDA)主题模型等,在长文本主题分类上已经是相当成熟的技术,但是在短文本上表现一般,且无法处理流式数据。
海量文本数据一般以流式数据的形式呈现,无法控制数据量和数据的处理顺序,数据的分布可能随时间改变,数据持续到达,这些都是文本大数据处理的难点。对于海量、高增长率和多样化的信息资源,需要新的处理模式才能有更强的决策力、洞察发现力和流程优化能力。
短文本在线聚类问题,可以分解为两个模块,文本特征提取和增量聚类。现有的方法都大多数是针对其中一个模块的技术。
文本特征提取模块中,三类语义模型都有成熟的方法。隐性语义模型的方法中最著名的是Mikolov的word2vec,该方法利用神经网络模型根据词的共现关系把语义映射到隐性向量上。与隐性语义模型对应的是显性语义模型,最具代表性的显性语义模型为ESA模型,ESA模型中词向量的每个维度代表一个明确的知识库文本,如Wikipedia文章(或标题)。半显性语义模型的典型方法是隐狄利克雷分布(LDA)主题模型,该方法假设主题和词语服从狄利克雷分布,通过最大化似然函数求解文本主题,把相同主题的文本划分为一类。增量聚类模块中,Papka R在1998年提出的Single-Pass方法由于计算量小、效率高被后来的研究者广泛采用。Xie在2015年提出的DEC方法利用深度学习技术,把文本特征提取和聚类结合起来,利用降噪编码器初始化文本向量,以t分布构建核函数衡量文本与主题的距离,不断优化文本当前主题分布与文本主题辅助分布的KL散度,来达到文本聚类的目的。
然而上述技术方案都有各自的缺陷,隐性语义模型的可解释性屡遭诟病,短文本也不利于隐性语义模型的训练。显性语义模型需要构建大规模知识库,这是一个相当繁琐和漫长的过程。半显性语义模型没有在线增量聚类模式。Single-Pass方法依赖文本距离度量的准确度,而且类别偏多。DEC方法构造的辅助分布缺乏严格证明,适用性有限。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810937692.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:业务数据的展示方法及装置
- 下一篇:一种数据标准化方法、装置及电子设备