[发明专利]一种针对论坛文本的主题挖掘方法有效
| 申请号: | 201810418998.5 | 申请日: | 2018-05-04 |
| 公开(公告)号: | CN108710650B | 公开(公告)日: | 2021-08-03 |
| 发明(设计)人: | 田贤忠;姚明超;顾思义 | 申请(专利权)人: | 浙江工业大学 |
| 主分类号: | G06F16/30 | 分类号: | G06F16/30;G06F40/289 |
| 代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
| 地址: | 310014 浙江省杭*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 针对 论坛 文本 主题 挖掘 方法 | ||
1.一种针对论坛文本的主题挖掘方法,其特征在于,所述方法包括以下步骤:
步骤1:爬取论坛的数据,利用文本处理手段找出大概率可能是无意义的回复,并做好标记;
步骤2:对论坛文本按照句子切割,之后进行分词,根据词性删除无用的词,去停用词;
步骤3:对现有的文本根据BBS-LDA主题模型使用Gibbs Sampling进行参数估计,最终得到属于每个主题可能性最大的词语;
所述步骤3中,所述BBS-LDA主题模型中,BBS-LDA将同一个帖子中的回复聚集在一起,并把回复切分成句;对于属于同一个帖子的句子,其主题是从同一个主题分布采样而来,且句子中的每个词所属的主题和句子的主题一致;同时,每个句子都有一定的概率被采样为无意义的句子,每个词都有一定的概率被采样为背景词,所述背景词与句子的主题无关,且这些概率与发表该回复的用户有关;
所述BBS-LDA主题模型的参数估计过程为:
(3.1)采样第p个帖子中第s个句子所对应的标记变量rp,s和句子的主题zp,s公式如下:
当rp,s=1时,句子主题为k的概率计算如下:
其中,Γ()是gamma函数,Γ(x+1)=xΓ(x),表示当前正在采样的句子中的词v属于主题k的个数,是一个向量,一共有二维,表示用户u发表的有意义的句子的个数,表示用户u发表的无意义的句子的个数,Su表示用户u所发的句子的数目,是一个向量,一共k维,表示第p个帖子中主题为k的句子的个数,Qp表示第p个帖子中有意义的句子的个数,一共V维,R(v)表示单词v属于无意义词的个数,R表示无意义的词的个数,是一个向量,有V维,表示语料库中每个单词属于主题k的个数,下标带有表示语料库排除当前采样句子的计数;
rp,s=0的概率计算如下:
其中,C表示当前采样句子中无意义词的个数,C(v)表示当前采样句子中的词v属于无意义词的个数;
(3.2)采样句子中的每个词的标记变量t的公式如下:
词x属于背景词的概率计算如下:
其中,有二维,表示用户u发表的词中属于背景词的数量,表示用户u发表的词中不属于背景词的词的数量,有V维,O(v)表示单词v属于背景词的数量,O表示所有背景词的数量;
词x不属于背景词的概率计算如下:
如果该单词所在的句子对应的标志变量rp,s=1,且zp,s=k
如果该单词所在的句子对应的标志变量rp,s=0
(3.3)当模型收敛的时候,各个单词属于每个主题的概率计算如下:
2.如权利要求1所述的一种针对论坛文本的主题挖掘方法,其特征在于,所述步骤1包括以下步骤:
步骤11:通过爬虫爬取论坛中的文本,爬取的内容包括回复的内容,回复的用户,该条回复所对应的帖子的id,主帖也被当成一条回复,回复的用户为楼主;
步骤12:对于字数小于10的回复,使用Jieba分词工具分词,统计高频词,并人工筛选出一份词典,包含词典里面的词的短回复是无意义的回复,并做好标记;
步骤13:对每个用户遍历其所有回复,通过Simhash找出相似度高的回复,如果相似度高的回复计数大于3,这些回复是广告或者无意义的回复,并做好标记。
3.如权利要求1所述的一种针对论坛文本的主题挖掘方法,其特征在于,所述步骤2包括以下步骤:
步骤21:对论坛中的所有回复按照“。”、“!”、“?”和换行进行切割,把长回复分割成一个个句子,句子的作者为原来回复的作者,如果该句子所在的回复在步骤1已经被标记为无意义回复,则该句子也属于无意义的句子;
步骤22:对所有句子使用Jieba分词工具分词,根据词性删除数字、标点、语气词等不包含语义的词性,并删除停用词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810418998.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种医学空缺数据弥补方法
- 下一篇:一种大规模客户投诉数据自动分类方法





