[发明专利]一种领域文本主题抽取方法有效
申请号: | 202110039892.6 | 申请日: | 2021-01-13 |
公开(公告)号: | CN112836507B | 公开(公告)日: | 2022-12-09 |
发明(设计)人: | 邹长明;黄少滨;申林山;李熔盛;何荣博 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/36;G06F16/35 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 领域 文本 主题 抽取 方法 | ||
1.一种领域文本主题抽取方法,其特征在于,包括以下步骤:
步骤1:获取待抽取的文本集,对文本集中的文本顺序编号;根据文本集所属的领域,利用图中心性度量方法计算审计方法中各审计词语的中心性,选取中心性最高的前u%审计词语构建候选词表candidate;
步骤2:对待抽取的文本集进行分词处理,将已经分好词的文本集转化为文本非去重的词链表word_list和词袋word_bag;
所述的文本非去重的词链表word_list中每一个子链表代表文本集中的一篇文本,链表中的元素为词语;所述的词袋word_bag由文本非去重的词链表word_list去重后得到,词袋word_bag的长度为V;
步骤3:创建链表l和链表z;
步骤3.1:从文本非去重的词链表word_list中选择一个词语,判断当前词语是否属于候选词表candidate;若当前词语属于候选词表candidate,则当前词语的审计主题编号保存为1;若当前词语不属于候选词表candidate,则当前词语的审计主题编号随机保存为0或1;
步骤3.2:对当前词语随机赋予主题编号k,k∈{1,2,...,K};
步骤3.3:将当前词语在文本非去重的词链表word_list中的位置信息赋予链表l中对应位置的元素,将当前词语的主题编号和审计主题编号赋予链表z中对应位置的元素;
步骤3.4:重复执行步骤3.1至步骤3.3,直到完成链表l和链表z中所有元素的赋值;
步骤4:根据链表z创建文本-审计主题编号统计矩阵NDE、审计主题编号-主题编号统计矩阵NET和审计主题编号-主题编号--词语统计矩阵NETW;
所述的文本-审计主题编号统计矩阵NDE为二维矩阵,矩阵元素NDEme表示在编号为m的文本中,审计主题编号为e-1的词语数量;e∈{1,2};
所述的审计主题编号-主题编号统计矩阵NET为二维矩阵,矩阵元素NETek表示审计主题编号为e-1且主题编号为k的词语数量;
所述的审计主题编号-主题编号--词语统计矩阵NETW为三维矩阵,矩阵元素NETWekv表示审计主题编号为e-1、主题编号为k且在词袋word_bag中位置为v的词语数量;v∈{1,2,...,V};
步骤5:利用Gibbs抽样方法对可观测变量即链表z中的元素进行抽样并更新其主题编号和审计主题编号;
步骤5.1:从链表z中抽取一个词语i,获取当前词语所属文本编号mi、审计主题编号ei-1、主题编号ki和在词袋word_bag中的位置vi;根据抽取后的链表z,使矩阵NDE、NET、NETW中对应元素值减1;
步骤5.2:计算当前词语i分配到各主题编号和审计主题编号的边缘分布律向量;
步骤5.2.1:计算可观测变量进行抽样的条件下词语i分配到主题编号kj、审计主题编号ej-1的概率分布值;
其中,αk,βv,γe为设定的超参数;
步骤5.2.2:重复执行步骤5.2.1,得到词语i分配到各主题编号和审计主题编号的联合分布律,共执行2K次,得到的联合分布律为二维矩阵,根据二维矩阵得到当前词语i分配到各主题编号和审计主题编号的边缘分布律向量;
步骤5.3:根据当前词语i分配到各主题编号和审计主题编号的边缘分布律向量,采用轮盘法随机抽取,重新分配给当前词语i新的主题编号和审计主题编号;
步骤5.4:将当前词语i放回链表z;根据放回后的链表z,使矩阵NDE、NET、NETW中对应元素值加1;
步骤5.5:重复执行步骤5.1至步骤5.4,直到链表z不再变化;
步骤6:计算文本-审计主题编号的参数分布矩阵π、审计主题编号-主题编号的参数分布矩阵θ和审计主题编号-主题编号--词语的参数分布矩阵φ;
所述的文本-审计主题编号的参数分布矩阵π为二维矩阵,矩阵元素πme为:
所述的审计主题编号-主题编号的参数分布矩阵θ为二维矩阵,矩阵元素θek为:
所述的审计主题编号-主题编号--词语的参数分布矩阵φ为三维矩阵,矩阵元素φekv为:
步骤7:获取文本集中每篇文本的主题;
步骤7.1:将文本-审计主题编号的参数分布矩阵π与审计主题编号-主题编号的参数分布矩阵θ进行矩阵点乘,得到文本-主题编号概率分布矩阵;根据审计主题编号-主题编号--词语的参数分布矩阵φ,获取主题编号-词语概率分布矩阵;
步骤7.2:根据文本-主题编号概率分布矩阵对每个文本的主题编号按概率值降序排序;对每篇文本,取概率值最高的主题编号所在列与该主题编号在主题编号-词语概率分布矩阵中所在行相乘,得到每篇文本的词语概率值向量;
步骤7.3:对每篇文本的词语概率值向量中的元素降序排序,取概率值最高的元素,根据该元素记载的词袋word_bag中的位置信息获取对应的词语,若该词语在文本非去重的词链表集合word_list中该文本所在的子链表中,则输出当前词语作为该文本的主题词语;
步骤7.4:重复执行步骤7.1至步骤7.3,直至输出文本集中每篇文本指定数量的主题词语。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110039892.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文本语料库的关系抽取方法
- 下一篇:水泥浆细化装置