[发明专利]一种针对论坛文本的主题挖掘方法有效

申请号：	201810418998.5	申请日：	2018-05-04
公开（公告）号：	CN108710650B	公开（公告）日：	2021-08-03
发明（设计）人：	田贤忠;姚明超;顾思义	申请（专利权）人：	浙江工业大学
主分类号：	G06F16/30	分类号：	G06F16/30;G06F40/289
代理公司：	杭州斯可睿专利事务所有限公司 33241	代理人：	王利强
地址：	310014 浙江省杭***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种针对论坛文本主题挖掘方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种针对论坛文本的主题挖掘方法，其特征在于，所述方法包括以下步骤：

步骤1：爬取论坛的数据，利用文本处理手段找出大概率可能是无意义的回复，并做好标记；

步骤2：对论坛文本按照句子切割，之后进行分词，根据词性删除无用的词，去停用词；

步骤3：对现有的文本根据BBS-LDA主题模型使用Gibbs Sampling进行参数估计，最终得到属于每个主题可能性最大的词语；

所述步骤3中，所述BBS-LDA主题模型中，BBS-LDA将同一个帖子中的回复聚集在一起，并把回复切分成句；对于属于同一个帖子的句子，其主题是从同一个主题分布采样而来，且句子中的每个词所属的主题和句子的主题一致；同时，每个句子都有一定的概率被采样为无意义的句子，每个词都有一定的概率被采样为背景词，所述背景词与句子的主题无关，且这些概率与发表该回复的用户有关；

所述BBS-LDA主题模型的参数估计过程为：

(3.1)采样第p个帖子中第s个句子所对应的标记变量r_p,s和句子的主题z_p,s公式如下：

当r_p,s＝1时，句子主题为k的概率计算如下：

其中，Γ()是gamma函数，Γ(x+1)＝xΓ(x)，表示当前正在采样的句子中的词v属于主题k的个数，是一个向量，一共有二维，表示用户u发表的有意义的句子的个数，表示用户u发表的无意义的句子的个数，S_u表示用户u所发的句子的数目，是一个向量，一共k维，表示第p个帖子中主题为k的句子的个数，Q_p表示第p个帖子中有意义的句子的个数，一共V维，R^(v)表示单词v属于无意义词的个数，R表示无意义的词的个数，是一个向量，有V维，表示语料库中每个单词属于主题k的个数，下标带有表示语料库排除当前采样句子的计数；

r_p,s＝0的概率计算如下：

其中，C表示当前采样句子中无意义词的个数，C^(v)表示当前采样句子中的词v属于无意义词的个数；

(3.2)采样句子中的每个词的标记变量t的公式如下：

词x属于背景词的概率计算如下：

其中，有二维，表示用户u发表的词中属于背景词的数量，表示用户u发表的词中不属于背景词的词的数量，有V维，O^(v)表示单词v属于背景词的数量，O表示所有背景词的数量；

词x不属于背景词的概率计算如下：

如果该单词所在的句子对应的标志变量r_p,s＝1，且z_p,s＝k

如果该单词所在的句子对应的标志变量r_p,s＝0

(3.3)当模型收敛的时候，各个单词属于每个主题的概率计算如下：

2.如权利要求1所述的一种针对论坛文本的主题挖掘方法，其特征在于，所述步骤1包括以下步骤：

步骤11：通过爬虫爬取论坛中的文本，爬取的内容包括回复的内容，回复的用户，该条回复所对应的帖子的id，主帖也被当成一条回复，回复的用户为楼主；

步骤12：对于字数小于10的回复，使用Jieba分词工具分词，统计高频词，并人工筛选出一份词典，包含词典里面的词的短回复是无意义的回复，并做好标记；