[发明专利]一种基于语义词网络的短文本主题挖掘方法有效

专利信息
申请号: 201910400416.5 申请日: 2019-05-14
公开(公告)号: CN110134958B 公开(公告)日: 2021-05-18
发明(设计)人: 张雷;经伟;蔡洋;陆恒杨;徐鸣;王崇骏 申请(专利权)人: 南京大学
主分类号: G06F40/258 分类号: G06F40/258;G06F40/30;G06F40/284
代理公司: 南京瑞弘专利商标事务所(普通合伙) 32249 代理人: 刘珊珊
地址: 210093 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 语义 网络 文本 主题 挖掘 方法
【说明书】:

发明公开了一种基于语义词网络的短文本主题挖掘方法,包括如下步骤1)模型初始化阶段:相关领域外部语料收集、语料预处理、参数设置等;2)主题单元构建阶段:构建语义词网络、寻找特定词三角结构、计算模型先验参数等工作;3)模型训练阶段:使用吉布斯采样方法对模型变量进行采样,并判断模型是否达到收敛条件;4)结果输出阶段:根据模型训练结束后的各个变量的采样结果,得到各个词三角的主题分布,进而推算出原文档的主题分布。本发明将外部语料库学习到的语义信息与词三角主题结构相结合,应用于短文本主题挖掘方面,相对于传统词对主题模型,该方法提供了一个在传统主题模型中融入外部先验知识的解决方案,并且挖掘主题的质量具有显著提升。

技术领域

本发明涉及一种短文本主题挖掘方法,尤其是一种基于语义词网络的短文本主题挖掘方法,该方法解决了普通主题挖掘方法在短文本特征稀疏情况下主题质量不高的问题。

背景技术

随着社会发展节奏的不断加快以及智能移动终端带来的“短平快”的用户体验,人们在网络上的交流越来越趋于碎片化。因此,短文本数据在如今的网络信息交互中占据着越来越重要的地位,例如社交网络状态、微博文本消息、传统新闻标题、短视频标题和问答网站等都是以短文本形式出现。并且随着微博、知乎、Facebook、Twitter等大体量公司的崛起,短文本数据也是以极大的速度产生并积累着。因此,从海量的短文本数据中挖掘主题信息便具有十分重大的价值,例如舆情分析、信息检索、个性化推荐、用户兴趣聚类等都是主题挖掘的应用方向。而另一方面,使用传统的文本挖掘方法来挖掘短文本的主题信息却存在很大的困难,主要原因是短文本中词共现信息十分稀疏。

目前,对于短文本特征稀疏的解决方案,一般都是利用词语共现关系进行。这种解决方案基于一个假设:在同一篇短文本中共现的词对是具有主题联系的。例如在短文本挖掘主题领域比较常用的两个模型词对主题模型与词网络主题模型。前者通过共现单词组成词对作为基本主题单元,后者通过共现单词为每个词语组成伪文档协助发掘对应词语的主题。这些方法都忽视了词语之间的语义联系,例如“假期”“假日”是语义十分接近的两个词,它们组成的词对本应比一般共现词对对主题的贡献更大,但是却由于同一篇短文本中鲜有共现而被一般模型所忽略。

词向量是一种在计算机内部表示词语的方法,基于该表示可以将词语直接作为特征输入模型,为自然语言的处理带来了很大的便利。而分布式表示的词向量相对于以往的独热表示词向量一方面是向量维数更低更可控,另一方面其是利用大量外部语料通过神经语言模型训练,包含的语义信息也更加丰富。本发明利用分布式词向量表征语义的优势,提出利用词向量衡量词语的语义相似度并作为先验知识加入到词三角主题模型中,为短文本主题挖掘方法提供了一种新的解决思路。

发明内容

发明目的:本发明所要解决的技术问题是传统的主题模型在应对短文本数据特征稀缺性而考虑词语共现信息时,由于引入的噪音信息与忽略的语义信息而导致挖掘主题质量不够高的问题。本发明通过引入外部语义信息并融合词共现信息一起构建语义词网络来进行主题挖掘的方法:首先从相关领域收集外部语料通过word2vec模型训练词向量;然后遍历目标语料库结合词向量信息生成语义词网络,并在其中遴选出特定的词三角结构;接着利用吉布斯采样方法采样参数,并且多次迭代达到收敛;最后通过采样结果计算词三角的主题分布,进而推算目标语料库中文档的主体分布。

技术方案:为实现上述目的,本发明采用的技术方案为:

一种基于语义词网络的短文本主题挖掘方法,包括如下步骤:

步骤1,模型初始化阶段:采集相关领域外部语料构建外部语料库;对外部语料库与目标语料库的进行预处理操作,使外部语料库与目标语料库中的语料转化为能够被word2vec模型接受的格式;将外部语料库作为输入,训练word2vec模型,使word2vec模型输出指定词向量;通过训练好的word2vec模型提取目标语料库中的词向量数据;

步骤2,主题单元构建阶段:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910400416.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top