[发明专利]基于主题模型的领域标签获取方法有效

专利信息
申请号: 201910784200.3 申请日: 2019-08-23
公开(公告)号: CN110543564B 公开(公告)日: 2023-06-20
发明(设计)人: 黄改娟;王胜;张仰森;蒋玉茹;段瑞雪;张雯 申请(专利权)人: 北京信息科技大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/284;G06F40/289;G06Q10/0639
代理公司: 北京科亿知识产权代理事务所(普通合伙) 11350 代理人: 汤东凤
地址: 100192 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 主题 模型 领域 标签 获取 方法
【权利要求书】:

1.一种基于主题模型的领域标签获取方法,其特征在于:包括以下的步骤,

S1,数据预处理

获取初始数据集合;

S2,关键词抽取

通过FLDA进行“主题-短语”抽取,根据在文中出现的位置对短语进行权重赋值,并使用word2vec对其进行向量表征;

S3,领域体系映射

将“主题-短语”映射到体系,实现学者领域的统一管理;

S4,综合排序

将向量表征结果与权重赋值结果加权排序,通过阈值获得最能代表学者的标签词;

其中,所述的通过FLDA进行“主题-短语”抽取的方法为,通过Gibbs抽样获得抽样参数和θ,

zi的后验公式为如下式所示:

P(zi=j|z-i,w)→P(wi|zi=j,z-i,w-i)P(zi=j|z-i),

其中,zi=j为将主题j分配给当前词Wi,z-i为分配给非zi的词语权重和,W-i为非当前位置的词,

已知P(w|z)仅与相关,因此通过在上积分,得到下式:

其中,为Gibbs抽样参数,为当前主题j对应的Gibbs抽样参数,为对参数进行积分,

是“主题-短语”的多项式分布,遵循下式:

另外,同时,是的先验分布,因此对后验概率进行积分,即可获得下式:

其中,是分配给主题j且与词w相同的词的权重和,为分配给主题j且的所有词的权重和,β为Dirichlet分布的参数,v为词库的大小,

同理可知,P(z)仅与θ有关,因此通过在θ上积分可得下式:

表示di中分配给主题i的词语权重和,T为主题数,

通过公式P(zi=j|z-i,w)→P(wi|zi=j,z-i,w-i)P(zi=j|z-i),结合得到下式:

经过上述的计算,得到了LDA的非标准分布,然后除去所有“主题-短语”分配的概率和,如下式所示:

其中,wi第i个词语,zi=j为将当前主题j分配给当前词wi,z-i为分配给非zi的词权重和,表示主题为j且词语与词语wi相同的权重和,表示文档di中主题为i的词语的权重和,表示当前文档中拥有主题的词语的权重和,V表示词库大小,T表示主题个数,P(zi=j|z-i,wi)为经过重新计算的后验概率;

模型的词频加权公式如下:

其中,ni表示当前此的词频,nmid表示选择中频词的词频,nmax表示词频统计结果中的最大值,nmin表示词频统计结果中的最小值,Ci表示当前词的权重,取值范围为[1,2],为保障加权后总特征词的个数不变,需要对每个特征词的权重做调整,其中,Fi为特征词调整后的权重,为当前词出现的个数,为所有词的权重和;

将计算得到的Fi替换掉Gibbs采样过程中初始化的随机值,并在此基础上循环计算至收敛并获得参数和θ。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学,未经北京信息科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910784200.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top