[发明专利]一种基于word2vec‑LDA模型的文本主题词提取方法在审
申请号: | 201710272622.3 | 申请日: | 2017-04-24 |
公开(公告)号: | CN107122349A | 公开(公告)日: | 2017-09-01 |
发明(设计)人: | 王鸿泽;崔超远;王伟;屠舒妍 | 申请(专利权)人: | 无锡中科富农物联科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 南京常青藤知识产权代理有限公司32286 | 代理人: | 金迪 |
地址: | 214000 江苏省无锡市无锡新区太湖国*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 word2vec lda 模型 文本 主题词 提取 方法 | ||
技术领域
本发明涉及数据处理领域,具体涉及一种基于word2vec-LDA模型的文本主题词提取方法。
背景技术
主题词提取的主要工作是提取出能够代表文档主题内容的词或短语。现有的主题词提取方法两种:有监督方法和无监督方法。
有监督的主题词提取方法包括基于SVM、决策树、朴素贝叶斯等有监督机器学习方法,有监督的主题词提取方法的优点是正确率比较高,模型相对简单,但缺点是需要大规模的已标注语料作为训练数据,对训练数据的依赖较高,且需要耗费大量的资源进行人工标注;
无监督的主题词提取方法主要是基于统计的方法,常用的统计特征有词频、TF-IDF、词共现等,而无监督的主题词提取方法主要就是基于这些统计特征进行分析的,其中具有代表性的是以LDA模型为代表的主题模型。LDA是一个三级分层贝叶斯模型,它把文本集合中的每一项都看成是潜在主题集合上的一个随机混合,是一个典型的生成式主题模型。由于其把文档-主题-词汇三者联系在一起,所以经常会被用于文本主题词的自动提取。
但是LDA存在的不足是,LDA在建模时利用的是基于词频的词袋模型,词袋模型的问题是不计词序,也就是说忽略了单词之间的联系以及句式结构,忽略了上下文信息。
发明内容
本发明针对LDA存在忽略了单词之间的联系以及句式结构等的问题,提供了一种基于word2vec-LDA模型的文本主题词提取方法,该方法利用word2vec改进LDA,依据word2vec可以将单词进行向量化表示,可以通过向量间的距离来表示单词之间的关系等优点来弥补LDA模型的不足,提出了一个word2vec-LDA模型。
本发明采用如下技术方案:
一种基于word2vec-LDA模型的文本主题词提取方法,包括如下步骤:
S1、利用语料库一训练LDA模型;
S2、利用语料库二训练word2vec模型,对语料库二中出现的单词的处理转化为对K维向量空间中向量的运算,利用向量之间的相似度来表示单词的相似度,进而来表示文本语义的相似度;
S3、在线测试时对测试文本先进行预处理,包括文本切分、对测试文本内容进行分词并去停用词等操作;
S4、将LDA模型和word2vec模型参数输入word2vec-LDA模型,再将测试文本输入word2vec-LDA模型,并计算文本主题中心向量;
S5、根据文本主题中心向量,在训练好的word2vec模型所构成的词向量空间中,寻找与测试文本最相关的一个或多个主题词即为测试文本提取出的主题词。
本发明运用LDA模型和word2vec模型,下文对本发明进行具体描述:
模型输入:将语料库一的每篇文本表示成词袋模型,即由N个文本与M个唯一性词汇组成的N×M矩阵:
其中matrixd-w矩阵的行表示文本d1,d2,…,dn,matrixd-w矩阵的列表示唯一性词汇w1,w2,…,wM。
模型输出:输出两个矩阵,一个是由N个文本与K个主题组成的N×K矩阵(文本-潜在主题矩阵),一个是由K个主题与M个唯一性词汇组成的K×M矩阵(潜在主题-词汇矩阵):
其中matrixd-t表示N个文本在K个潜在主题上的概率分布,matrixt-w表示K个主题在M个唯一性词汇上的概率分布,测试时利用matrixt-w矩阵进行测试文本的主题判断。
语料库二训练word2vec模型的数据包含LDA模型中的词表中的词,将LDA中的词表中的词向量化后,得到一组代表词表的向量如式(4)所示,
根据式(3)可以得到代表不同主题的向量如式(5)所示,
测试文本通过LDA模型的判断,文本主题分布为文本主题中心向量为式(6)。
如式(6)得到的该测试文本的主题中心向量后,在已训练的word2vec模型所构成的词向量空间中,对于文本主题中心向量计算该向量到已知词向量空间中所有点的距离并排序,找到距离最小的n个词向量所对应的词,即为该测试文本提取出来的主题词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于无锡中科富农物联科技有限公司,未经无锡中科富农物联科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710272622.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种信息保存方法及移动终端
- 下一篇:一种多段落文本的特征抽取系统的方法