[发明专利]一种领域文本主题抽取方法有效

申请号：	202110039892.6	申请日：	2021-01-13
公开（公告）号：	CN112836507B	公开（公告）日：	2022-12-09
发明（设计）人：	邹长明;黄少滨;申林山;李熔盛;何荣博	申请（专利权）人：	哈尔滨工程大学
主分类号：	G06F40/289	分类号：	G06F40/289;G06F16/36;G06F16/35
代理公司：	暂无信息	代理人：	暂无信息
地址：	150001 黑龙江省哈尔滨市南岗区***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种领域文本主题抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种领域文本主题抽取方法，其特征在于，包括以下步骤：

步骤1：获取待抽取的文本集，对文本集中的文本顺序编号；根据文本集所属的领域，利用图中心性度量方法计算审计方法中各审计词语的中心性，选取中心性最高的前u％审计词语构建候选词表candidate；

步骤2：对待抽取的文本集进行分词处理，将已经分好词的文本集转化为文本非去重的词链表word_list和词袋word_bag；

所述的文本非去重的词链表word_list中每一个子链表代表文本集中的一篇文本，链表中的元素为词语；所述的词袋word_bag由文本非去重的词链表word_list去重后得到，词袋word_bag的长度为V；

步骤3：创建链表l和链表z；

步骤3.1：从文本非去重的词链表word_list中选择一个词语，判断当前词语是否属于候选词表candidate；若当前词语属于候选词表candidate，则当前词语的审计主题编号保存为1；若当前词语不属于候选词表candidate，则当前词语的审计主题编号随机保存为0或1；

步骤3.2：对当前词语随机赋予主题编号k，k∈{1,2,...,K}；

步骤3.3：将当前词语在文本非去重的词链表word_list中的位置信息赋予链表l中对应位置的元素，将当前词语的主题编号和审计主题编号赋予链表z中对应位置的元素；

步骤3.4：重复执行步骤3.1至步骤3.3，直到完成链表l和链表z中所有元素的赋值；

步骤4：根据链表z创建文本-审计主题编号统计矩阵NDE、审计主题编号-主题编号统计矩阵NET和审计主题编号-主题编号--词语统计矩阵NETW；

所述的文本-审计主题编号统计矩阵NDE为二维矩阵，矩阵元素NDE_me表示在编号为m的文本中，审计主题编号为e-1的词语数量；e∈{1,2}；

所述的审计主题编号-主题编号统计矩阵NET为二维矩阵，矩阵元素NET_ek表示审计主题编号为e-1且主题编号为k的词语数量；

所述的审计主题编号-主题编号--词语统计矩阵NETW为三维矩阵，矩阵元素NETW_ekv表示审计主题编号为e-1、主题编号为k且在词袋word_bag中位置为v的词语数量；v∈{1,2,...,V}；

步骤5：利用Gibbs抽样方法对可观测变量即链表z中的元素进行抽样并更新其主题编号和审计主题编号；

步骤5.1：从链表z中抽取一个词语i，获取当前词语所属文本编号m_i、审计主题编号e_i-1、主题编号k_i和在词袋word_bag中的位置v_i；根据抽取后的链表z，使矩阵NDE、NET、NETW中对应元素值减1；

步骤5.2：计算当前词语i分配到各主题编号和审计主题编号的边缘分布律向量；

步骤5.2.1：计算可观测变量进行抽样的条件下词语i分配到主题编号k_j、审计主题编号e_j-1的概率分布值；

其中，α_k,β_v,γ_e为设定的超参数；

步骤5.2.2：重复执行步骤5.2.1，得到词语i分配到各主题编号和审计主题编号的联合分布律，共执行2K次，得到的联合分布律为二维矩阵，根据二维矩阵得到当前词语i分配到各主题编号和审计主题编号的边缘分布律向量；

步骤5.3：根据当前词语i分配到各主题编号和审计主题编号的边缘分布律向量，采用轮盘法随机抽取，重新分配给当前词语i新的主题编号和审计主题编号；

步骤5.4：将当前词语i放回链表z；根据放回后的链表z，使矩阵NDE、NET、NETW中对应元素值加1；

步骤5.5：重复执行步骤5.1至步骤5.4，直到链表z不再变化；

步骤6：计算文本-审计主题编号的参数分布矩阵π、审计主题编号-主题编号的参数分布矩阵θ和审计主题编号-主题编号--词语的参数分布矩阵φ；

所述的文本-审计主题编号的参数分布矩阵π为二维矩阵，矩阵元素π_me为：

所述的审计主题编号-主题编号的参数分布矩阵θ为二维矩阵，矩阵元素θ_ek为：

所述的审计主题编号-主题编号--词语的参数分布矩阵φ为三维矩阵，矩阵元素φ_ekv为：

步骤7：获取文本集中每篇文本的主题；

步骤7.1：将文本-审计主题编号的参数分布矩阵π与审计主题编号-主题编号的参数分布矩阵θ进行矩阵点乘，得到文本-主题编号概率分布矩阵；根据审计主题编号-主题编号--词语的参数分布矩阵φ，获取主题编号-词语概率分布矩阵；

步骤7.2：根据文本-主题编号概率分布矩阵对每个文本的主题编号按概率值降序排序；对每篇文本，取概率值最高的主题编号所在列与该主题编号在主题编号-词语概率分布矩阵中所在行相乘，得到每篇文本的词语概率值向量；

步骤7.3：对每篇文本的词语概率值向量中的元素降序排序，取概率值最高的元素，根据该元素记载的词袋word_bag中的位置信息获取对应的词语，若该词语在文本非去重的词链表集合word_list中该文本所在的子链表中，则输出当前词语作为该文本的主题词语；

步骤7.4：重复执行步骤7.1至步骤7.3，直至输出文本集中每篇文本指定数量的主题词语。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学，未经哈尔滨工程大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110039892.6/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载