[发明专利]一种基于元信息的语料库主题分布计算方法有效

专利信息
申请号: 202011124613.8 申请日: 2020-10-20
公开(公告)号: CN112287666B 公开(公告)日: 2023-07-25
发明(设计)人: 刘刚;唐宏伟;张翰墨;张瀚文 申请(专利权)人: 哈尔滨工程大学
主分类号: G06F40/216 分类号: G06F40/216;G06F17/16
代理公司: 暂无信息 代理人: 暂无信息
地址: 150001 黑龙江省哈尔滨市南岗区*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 信息 语料库 主题 分布 计算方法
【权利要求书】:

1.一种基于元信息的语料库主题分布计算方法,其特征在于,包括以下步骤:

步骤1:输入待计算的语料库,获取语料库的文档元信息和词汇元信息,设定最大迭代次数;

步骤2:将语料库的文档元信息和词汇元信息转化为文档标签和词汇标签;根据文档标签,生成文档-文档标签向量矩阵Fd,l;根据词汇标签,生成词汇-词汇标签向量矩阵

步骤3:以超参数为u0的Gamma函数为文档标签l与主题k对应的参数λl,k赋值,λl,k~Gamma(u0,u0),得到主题-文档标签的相关性矩阵;以超参数为v0的Gamma函数为词汇标签l*与主题k对应的参数赋值,得到主题-词汇标签的相关性矩阵;其中,主题总数为K;文档标签总数为L;词汇标签总数为L*

步骤4:计算主题k与词汇v对应的参数βk,v,为词汇-词汇标签向量矩阵的元素;计算文档语料d与主题k与对应的参数αd,k,fd,l为文档-文档标签向量矩阵Fd,l的元素;计算每一个单词v被分配给主题k的次数nk,v,计算每一个文档语料d中被分配给主题k的词汇数量md,k

步骤5:通过qd~Beta(αd,·,md,·)采样参数qd

其中,αd,·为在一篇文档中每个主题αd,k值的线性和,md,·为在一篇文档中所有的词汇的个数;

步骤6:通过CRP过程,以αd,k为聚集,md,k为客户数量采样参数td,k

步骤7:从Gamma随机函数中采样参数λ′l,k,并更新参数αd,k

λ′l,k~Gamma(μ′,μ″)

参数αd,k的更新公式为:

步骤8:根据采样参数

其中,βk,·为主题k与每个单词的相关性之和;nk,·为主题k包含的单词总数;

步骤9:通过CRP过程,以βk,v为聚集,nk,v为客户数量采样参数t′k,v

步骤10:从Gamma随机函数中采样参数并更新参数βk,v

参数βk,v的更新公式为:

步骤11:判断是否达到最大迭代次数;若未达到最大迭代次数,则返回步骤5;否则,输出语料库的主题分布,即公式:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011124613.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top