[发明专利]基于主题模型的领域标签获取方法有效
申请号: | 201910784200.3 | 申请日: | 2019-08-23 |
公开(公告)号: | CN110543564B | 公开(公告)日: | 2023-06-20 |
发明(设计)人: | 黄改娟;王胜;张仰森;蒋玉茹;段瑞雪;张雯 | 申请(专利权)人: | 北京信息科技大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/284;G06F40/289;G06Q10/0639 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 汤东凤 |
地址: | 100192 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 主题 模型 领域 标签 获取 方法 | ||
1.一种基于主题模型的领域标签获取方法,其特征在于:包括以下的步骤,
S1,数据预处理
获取初始数据集合;
S2,关键词抽取
通过FLDA进行“主题-短语”抽取,根据在文中出现的位置对短语进行权重赋值,并使用word2vec对其进行向量表征;
S3,领域体系映射
将“主题-短语”映射到体系,实现学者领域的统一管理;
S4,综合排序
将向量表征结果与权重赋值结果加权排序,通过阈值获得最能代表学者的标签词;
其中,所述的通过FLDA进行“主题-短语”抽取的方法为,通过Gibbs抽样获得抽样参数和θ,
zi的后验公式为如下式所示:
P(zi=j|z-i,w)→P(wi|zi=j,z-i,w-i)P(zi=j|z-i),
其中,zi=j为将主题j分配给当前词Wi,z-i为分配给非zi的词语权重和,W-i为非当前位置的词,
已知P(w|z)仅与相关,因此通过在上积分,得到下式:
其中,为Gibbs抽样参数,为当前主题j对应的Gibbs抽样参数,为对参数进行积分,
是“主题-短语”的多项式分布,遵循下式:
另外,同时,是的先验分布,因此对后验概率进行积分,即可获得下式:
其中,是分配给主题j且与词w相同的词的权重和,为分配给主题j且的所有词的权重和,β为Dirichlet分布的参数,v为词库的大小,
同理可知,P(z)仅与θ有关,因此通过在θ上积分可得下式:
表示di中分配给主题i的词语权重和,T为主题数,
通过公式P(zi=j|z-i,w)→P(wi|zi=j,z-i,w-i)P(zi=j|z-i),结合得到下式:
经过上述的计算,得到了LDA的非标准分布,然后除去所有“主题-短语”分配的概率和,如下式所示:
其中,wi第i个词语,zi=j为将当前主题j分配给当前词wi,z-i为分配给非zi的词权重和,表示主题为j且词语与词语wi相同的权重和,表示文档di中主题为i的词语的权重和,表示当前文档中拥有主题的词语的权重和,V表示词库大小,T表示主题个数,P(zi=j|z-i,wi)为经过重新计算的后验概率;
模型的词频加权公式如下:
其中,ni表示当前此的词频,nmid表示选择中频词的词频,nmax表示词频统计结果中的最大值,nmin表示词频统计结果中的最小值,Ci表示当前词的权重,取值范围为[1,2],为保障加权后总特征词的个数不变,需要对每个特征词的权重做调整,其中,Fi为特征词调整后的权重,为当前词出现的个数,为所有词的权重和;
将计算得到的Fi替换掉Gibbs采样过程中初始化的随机值,并在此基础上循环计算至收敛并获得参数和θ。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学,未经北京信息科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910784200.3/1.html,转载请声明来源钻瓜专利网。