[发明专利]一种领域文本主题抽取方法有效
申请号: | 202110039892.6 | 申请日: | 2021-01-13 |
公开(公告)号: | CN112836507B | 公开(公告)日: | 2022-12-09 |
发明(设计)人: | 邹长明;黄少滨;申林山;李熔盛;何荣博 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/36;G06F16/35 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 领域 文本 主题 抽取 方法 | ||
本发明属于文本主题抽取技术领域,具体涉及一种领域文本主题抽取方法。本发明应用了统计学习方法中的LDA主题模型,并在LDA主题模型三层贝叶斯网络基础上提出增加审计方法层,形成四层贝叶斯网络。该模型认为文本由审计方法的多项分布构成,审计方法由主题的多项分布构成。首先分别生成审计方法、文本主题和词语的多项分布,然后由狄利克雷分布为主题的多项分布,审计方法的多项分布和词语的多项分布分配参数,利用吉布斯抽样计算得到真实的包含审计方法的主题分布参数。该方法相较于LDA主题模型,在提取出的主题中加入了审计方法的信息,降低了主题间重叠度过高的问题,同时也可以为四险一金领域知识图谱的审计工具集提供支持。
技术领域
本发明属于文本主题抽取技术领域,具体涉及一种领域文本主题抽取方法。
背景技术
随着技术的进步以及国家的重视程度的提高,以电子政务审计取代传统审计方法的趋势将成为主流。四险一金领域的知识图谱将互联网的信息表达成更接近人类认知的形式,可以提供更好的组织、管理四险一金领域政策法规的能力,将审计部门宝贵的人力从繁重的工作中解脱出来。
文本作为网络信息的重要组成部分自始至终都受到了极大的关注,对网络文本的分析在许多领域包括计算机科学、统计学、经济学等方面获得了极大的成功,早期互联网规模较小,通常通过人工对网络文本进行分析,而随着近些年互联网大规模普及,网络文本数量快速增长,通过人工整理并分析的手段已变得不现实。如何在大量文本当中找到准确有效的信息已经成为自然语言处理、机器学习和人工智能领域的热点研究问题。迄今为止审计人员对四险一金领域政策法规文本进行审计分析都是通过人工的方式,在浪费了大量人力资源的同时效率也并不高。
发明内容
本发明的目的在于提供一种领域文本主题抽取方法。
本发明的目的通过如下技术方案来实现:包括以下步骤:
步骤1:获取待抽取的文本集,对文本集中的文本顺序编号;根据文本集所属的领域,利用图中心性度量方法计算审计方法中各审计词语的中心性,选取中心性最高的前u%审计词语构建候选词表candidate;
步骤2:对待抽取的文本集进行分词处理,将已经分好词的文本集转化为文本非去重的词链表word_list和词袋word_bag;
所述的文本非去重的词链表word_list中每一个子链表代表文本集中的一篇文本,链表中的元素为词语;所述的词袋word_bag由文本非去重的词链表word_list去重后得到,词袋word_bag的长度为V;
步骤3:创建链表l和链表z;
步骤3.1:从文本非去重的词链表word_list中选择一个词语,判断当前词语是否属于候选词表candidate;若当前词语属于候选词表candidate,则当前词语的审计主题编号保存为1;若当前词语不属于候选词表candidate,则当前词语的审计主题编号随机保存为0或1;
步骤3.2:对当前词语随机赋予主题编号k,k∈{1,2,...,K};
步骤3.3:将当前词语在文本非去重的词链表word_list中的位置信息赋予链表l中对应位置的元素,将当前词语的主题编号和审计主题编号赋予赋予链表z中对应位置的元素;
步骤3.4:重复执行步骤3.1至步骤3.3,直到完成链表l和链表z中所有元素的赋值;
步骤4:根据链表z创建文本-审计主题编号统计矩阵NDE、审计主题编号-主题编号统计矩阵NET和审计主题编号-主题编号--词语统计矩阵NETW;
所述的文本-审计主题编号统计矩阵NDE为二维矩阵,矩阵元素NDEme表示在编号为m的文本中,审计主题编号为e-1的词语数量;e∈{1,2};
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110039892.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文本语料库的关系抽取方法
- 下一篇:水泥浆细化装置