[发明专利]一种基于种子词的半监督LDA模型在审
申请号: | 201810261009.6 | 申请日: | 2018-03-28 |
公开(公告)号: | CN110555106A | 公开(公告)日: | 2019-12-10 |
发明(设计)人: | 杨育斌;黄冠寰;柯宗贵 | 申请(专利权)人: | 蓝盾信息安全技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 510665 广东省广州市广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 概率分布 先验知识 半监督 准确度 人工分类 文本主题 主题抽取 计算量 种子词 反推 聚类 | ||
本发明公开了一种基于种子词的半监督LDA模型,该发明在基础的LDA模型上,加入词到主题的人工分类知识,根据这些先验知识调整从主题抽取词时的概率分布,从而构造了一个半监督的文本主题提取模型;利用先验知识,使已知所属主题的词不在参与到LDA模型过程的分布,不仅降低反推计算概率分布的计算量,还能有利于提升聚类准确度。
技术领域
本发明涉及一种互联网通信技术领域,特别涉及一种基于种子词的半监督LDA模型。
背景技术
文本分类的难点在于,如何将非数字的文本转化为易于量化的数量和向量。LDA模型与其他的文本分类算法相比,有以下的优点:一,LDA模型是一种主题模型,可以将文档集中每篇文档的主题按照概率给出;二,LDA模型是一种无监督学习算法,在训练是不需要手工标注的训练集,需要的仅仅是文档集合,以及指定主题的数量k;三,对于LDA生成的每个主题,都可以用一系列的词语来描述这个主题,使主题具有语义上的意义。然而,LDA的也有一些未解决的问题:一,基于词袋法,对于词语在文档中的先后次序数据被忽略了,可能产生影响;二,无监督算法的通病,聚类效果不好,主题粒度大,并且没能利用到一部分已标记的数据,造成浪费。
发明内容
通过引入部分已被标注主题的词来加强算法的聚类效果。常见关键词在多篇文档中的重复出现可能性比较大,相比于为每篇文档进行人工标注,对常见关键词进行人工标注的工作量要大大减少。将这些被人工标注了的常见关键词的集合称为先验知识。在构建主题向量的过程中,当文档中出现先验知识中的词时,在使用Gibbs采样前,对其概率进行权重调整,从而使得这些词必然从属于它的人工标注的主题。如此,特定的词被主动的归入特定的主题,从而与这些词类似的词,也有更大概率属于同一个主题。
本发明本发明技术方案带来的有益效果:
本发明加入先验知识,提升聚类准确度;实质上减少了需要Gibbs采样的词的数量,加快收敛速度;通过对先验知识的增删查改,实质上有了人工调整模型聚类结果的能力,使模型更有解释能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明中LDA的概率图模型;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施流程:
一、数据预处理
建立先验知识表,形如(词,主题),可以创建下列表prior_dic。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于蓝盾信息安全技术有限公司,未经蓝盾信息安全技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810261009.6/2.html,转载请声明来源钻瓜专利网。