[发明专利]一种领域文本主题抽取方法有效

专利信息
申请号: 202110039892.6 申请日: 2021-01-13
公开(公告)号: CN112836507B 公开(公告)日: 2022-12-09
发明(设计)人: 邹长明;黄少滨;申林山;李熔盛;何荣博 申请(专利权)人: 哈尔滨工程大学
主分类号: G06F40/289 分类号: G06F40/289;G06F16/36;G06F16/35
代理公司: 暂无信息 代理人: 暂无信息
地址: 150001 黑龙江省哈尔滨市南岗区*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 领域 文本 主题 抽取 方法
【权利要求书】:

1.一种领域文本主题抽取方法,其特征在于,包括以下步骤:

步骤1:获取待抽取的文本集,对文本集中的文本顺序编号;根据文本集所属的领域,利用图中心性度量方法计算审计方法中各审计词语的中心性,选取中心性最高的前u%审计词语构建候选词表candidate;

步骤2:对待抽取的文本集进行分词处理,将已经分好词的文本集转化为文本非去重的词链表word_list和词袋word_bag;

所述的文本非去重的词链表word_list中每一个子链表代表文本集中的一篇文本,链表中的元素为词语;所述的词袋word_bag由文本非去重的词链表word_list去重后得到,词袋word_bag的长度为V;

步骤3:创建链表l和链表z;

步骤3.1:从文本非去重的词链表word_list中选择一个词语,判断当前词语是否属于候选词表candidate;若当前词语属于候选词表candidate,则当前词语的审计主题编号保存为1;若当前词语不属于候选词表candidate,则当前词语的审计主题编号随机保存为0或1;

步骤3.2:对当前词语随机赋予主题编号k,k∈{1,2,...,K};

步骤3.3:将当前词语在文本非去重的词链表word_list中的位置信息赋予链表l中对应位置的元素,将当前词语的主题编号和审计主题编号赋予链表z中对应位置的元素;

步骤3.4:重复执行步骤3.1至步骤3.3,直到完成链表l和链表z中所有元素的赋值;

步骤4:根据链表z创建文本-审计主题编号统计矩阵NDE、审计主题编号-主题编号统计矩阵NET和审计主题编号-主题编号--词语统计矩阵NETW;

所述的文本-审计主题编号统计矩阵NDE为二维矩阵,矩阵元素NDEme表示在编号为m的文本中,审计主题编号为e-1的词语数量;e∈{1,2};

所述的审计主题编号-主题编号统计矩阵NET为二维矩阵,矩阵元素NETek表示审计主题编号为e-1且主题编号为k的词语数量;

所述的审计主题编号-主题编号--词语统计矩阵NETW为三维矩阵,矩阵元素NETWekv表示审计主题编号为e-1、主题编号为k且在词袋word_bag中位置为v的词语数量;v∈{1,2,...,V};

步骤5:利用Gibbs抽样方法对可观测变量即链表z中的元素进行抽样并更新其主题编号和审计主题编号;

步骤5.1:从链表z中抽取一个词语i,获取当前词语所属文本编号mi、审计主题编号ei-1、主题编号ki和在词袋word_bag中的位置vi;根据抽取后的链表z,使矩阵NDE、NET、NETW中对应元素值减1;

步骤5.2:计算当前词语i分配到各主题编号和审计主题编号的边缘分布律向量;

步骤5.2.1:计算可观测变量进行抽样的条件下词语i分配到主题编号kj、审计主题编号ej-1的概率分布值;

其中,αkve为设定的超参数;

步骤5.2.2:重复执行步骤5.2.1,得到词语i分配到各主题编号和审计主题编号的联合分布律,共执行2K次,得到的联合分布律为二维矩阵,根据二维矩阵得到当前词语i分配到各主题编号和审计主题编号的边缘分布律向量;

步骤5.3:根据当前词语i分配到各主题编号和审计主题编号的边缘分布律向量,采用轮盘法随机抽取,重新分配给当前词语i新的主题编号和审计主题编号;

步骤5.4:将当前词语i放回链表z;根据放回后的链表z,使矩阵NDE、NET、NETW中对应元素值加1;

步骤5.5:重复执行步骤5.1至步骤5.4,直到链表z不再变化;

步骤6:计算文本-审计主题编号的参数分布矩阵π、审计主题编号-主题编号的参数分布矩阵θ和审计主题编号-主题编号--词语的参数分布矩阵φ;

所述的文本-审计主题编号的参数分布矩阵π为二维矩阵,矩阵元素πme为:

所述的审计主题编号-主题编号的参数分布矩阵θ为二维矩阵,矩阵元素θek为:

所述的审计主题编号-主题编号--词语的参数分布矩阵φ为三维矩阵,矩阵元素φekv为:

步骤7:获取文本集中每篇文本的主题;

步骤7.1:将文本-审计主题编号的参数分布矩阵π与审计主题编号-主题编号的参数分布矩阵θ进行矩阵点乘,得到文本-主题编号概率分布矩阵;根据审计主题编号-主题编号--词语的参数分布矩阵φ,获取主题编号-词语概率分布矩阵;

步骤7.2:根据文本-主题编号概率分布矩阵对每个文本的主题编号按概率值降序排序;对每篇文本,取概率值最高的主题编号所在列与该主题编号在主题编号-词语概率分布矩阵中所在行相乘,得到每篇文本的词语概率值向量;

步骤7.3:对每篇文本的词语概率值向量中的元素降序排序,取概率值最高的元素,根据该元素记载的词袋word_bag中的位置信息获取对应的词语,若该词语在文本非去重的词链表集合word_list中该文本所在的子链表中,则输出当前词语作为该文本的主题词语;

步骤7.4:重复执行步骤7.1至步骤7.3,直至输出文本集中每篇文本指定数量的主题词语。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110039892.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top