[发明专利]一种基于主题词向量和网络结构的主题关键词提取方法有效

申请号：	201711315360.0	申请日：	2017-12-12
公开（公告）号：	CN108052593B	公开（公告）日：	2020-09-22
发明（设计）人：	胡晓慧;李超;曾庆田;戴明弟;赵中英	申请（专利权）人：	山东科技大学
主分类号：	G06F16/33	分类号：	G06F16/33;G06F16/35;G06K9/62
代理公司：	青岛智地领创专利代理有限公司 37252	代理人：	陈海滨
地址：	266590 山东省青***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于主题词向量网络结构主题关键词提取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于主题词向量和网络结构的主题关键词提取方法，其特征在于，具体包括：

对原始的文本语料进行分词；

基于LDA主题模型对文本语料进行主题聚类，并获得每个主题中与该主题相关度为top100的关键词集合KeywordsSet₁＝{k₁，...，k₁₀₀}；

利用word2vec将文本语料中的每个词表示为一个词向量，通过计算词向量之间的余弦值获得每两个词之间的语义相似度；

分别计算出与关键词集合KeywordsSet₁中的每个关键词在语义上相似度top5的词，关键词集合KeywordsSet₁中的词及其在语义上相似度top5的词共同组成新的关键词集合KeywordsSet₂；

以关键词集合KeywordsSet₂中的每个关键词为节点，词与词之间的语义相似度为边的权重，构建关键词网络，并根据每个节点的PageRank值获得关键词集合KeywordsSet₂中top20的词作为该主题的关键词，构成最终的关键词集合KeywordsSet_final；

所述关键词网络构建过程中，构建步骤具体包括：

S1：利用词向量之间的余弦关系，计算在同一主题下与主题聚类步骤中获得的初始关键词语义相似度top5的词，去重并与关键词集合KeywordsSet₁形成新的关键词集合KeywordsSet₂；

S2：计算每个主题下，关键词集合KeywordsSet₂中每个词两两之间的相似度作为两点之间的权重；

S3：设置阈值，过滤相似度低于阈值的边；

S4：构建每个主题的关键词网络；

S5：主题关键词提取：关键词网络构建完成后，计算每个主题网络中PageRank值从高到低的top20个节点，将其对应的词作为该主题的关键词集合KeywordsSet_final。

2.如权利要求1所述的一种基于主题词向量和网络结构的主题关键词提取方法，其特征在于，所述分词，即将获取的原始文本分割成词序列以便后续主题聚类和关键词提取，分词的结果作为word2vec的输入时去掉特殊符号；作为LDA的输入时，去掉虚词、无法作为主题关键词的地名以及与主题无关的重复的介词。

3.如权利要求1所述的一种基于主题词向量和网络结构的主题关键词提取方法，其特征在于，基于LDA主题模型对文本语料进行主题聚类，在语言建模中使用perplexity来衡量建模效果好坏，即较低的perplexity表示更好的泛化性能，perplexity计算式如下：

其中，P(w_i|t_j)是词w_i在主题t_j上的分布，P(t_j|d)是主题t_j在文档d上的分布，N是语料库中无重复的词总数，K是主题数，i＝1，...，K，j＝1，...，K。

4.如权利要求1所述的一种基于主题词向量和网络结构的主题关键词提取方法，其特征在于，在所述词向量生成过程中，以标题和内容的混合文本的分词结果作为输入获得每个词的词向量表示模型的过程。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于山东科技大学，未经山东科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201711315360.0/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载