[发明专利]基于FrankCopula函数的主题相关性建模方法在审
申请号: | 201810424875.2 | 申请日: | 2018-05-04 |
公开(公告)号: | CN108629009A | 公开(公告)日: | 2018-10-09 |
发明(设计)人: | 马廷淮;李婧;梁新年;蔡青;王红妹;杨慧敏 | 申请(专利权)人: | 南京信息工程大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 南京钟山专利代理有限公司 32252 | 代理人: | 戴朝荣 |
地址: | 210000 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 主题分布 主题词分布 建模 初始化参数 随机初始化 主题模型 准确度 排序 输出 引入 概率 中文 | ||
基于FrankCopula函数的主题相关性建模方法,包括如下步骤:随机初始化参数并选取超参数;根据初始化参数和超参数,使用LDA模型生成第一篇文档的主题分布和主题词分布;根据第一篇文档的主题分布和主题词分布,结合Copula函数计算每一篇文档的主题分布和主题词分布;根据计算的主题分布和主题词分布,对每篇文档的主题和主题词排序,根据概率大小选取文档的主题和主题词输出。本发明针对目前LDA模型中文档‑主题分布不考虑连续文档间的互相影响的问题,引入Frank Copula工具来生成连续文档的主题相关性模型,考虑了前一篇对后一篇文档的主题分布的影响,提高了主题模型的准确度。
技术领域
本发明属于机器学习的自然语言处理领域,具体涉及一种基于FrankCopula函数的主题相关性建模方法。
背景技术
在机器学习的自然语言处理等领域,主题模型是用来在一系列文档中发现抽象主题的一种统计模型。如果一篇文章有一个中心思想,那么一些特定词语会更频繁的出现。简单而言,主题挖掘就是要找到表达文章中心思想的主题词。主题挖掘的主要原因有文件数量迅速增长,依靠人工的方式很难实现对全部文本信息的主题进行提取,所以将该流程自动化已经势在必行,让机器代替人工去对文本的主题进行提取和整理。
经典的主题模型是D.M.Blei在2003年提出的LDA(Latent DirichletAllocation)模型。Blei以PLSA(LDA之前的另一个概率模型)为基础,加上了贝叶斯先验,从而发明了LDA算法。LDA是一种无监督机器学习模型,可以用来识别语料库中潜在的主题信息,并且假设每个文档都可以表示成若干潜在主题的混合分布。该方法定义文档的生成过程,首先预设一定量的主题且每个主题包含的词汇服从Dirichlet分布;然后从主题分布中抽取一个主题,再从上述主题包含的单词分布中抽取一个单词;最后重复上述过程,直至生成一篇文档。
LDA的一个经典特征是每个文档的主题分布都是独立的,此假设在某些情况下是不现实的。在文档流中,上一篇文档的主题分布势必会对下一篇的主题分布产生不可忽视的影响。由于Frank Copula函数将联合分布和边缘分布结合,可以描述多个随机变量的相关性;其对称性又保证了变量相关性不受变量排列顺序的影响。Frank Copula可以作为分析处理多维数据之间相关性的有效工具,所以本发明引入该函数,将主题分布视为随机变量,建立连续文档的主题相关性模型。
具体来说,Frank Copula是Copula函数族中的一个分支。形象地说,可以把Copula叫做“连接函数”或“相依函数”,它是把多个随机变量的联合分布与它们各自的边缘分布连接起来,p维Copula的数学表达为:
其中,xi(i=1...p)是第i维随机变量且x~U[0,1]p,是变量xi的边缘分布,C是对应的唯一的Copula函数,是这p个随机变量的联合分布。
特别地,对于Copula族的单因子分支Frank Copula,给出如下定义:
其中,u,v是两个随机变量,λ是从0到无穷大的整数使得Frank Copula可以表示相关性从独立到均等的两个随机变量。
发明内容
本发明针对现有技术中的不足,提供一种基于FrankCopula函数的主题相关性建模方法。针对目前LDA模型中文档主题分布不考虑连续文档间的互相影响的问题,引入Frank Copula工具来建立相邻文档的主题相关性模型。
为实现上述目的,本发明采用以下技术方案:
一种基于FrankCopula函数的主题相关性建模方法,其特征在于,包括如下步骤:
步骤一、随机初始化参数并选取超参数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810424875.2/2.html,转载请声明来源钻瓜专利网。