[发明专利]一种针对论坛文本的主题挖掘方法有效

专利信息
申请号: 201810418998.5 申请日: 2018-05-04
公开(公告)号: CN108710650B 公开(公告)日: 2021-08-03
发明(设计)人: 田贤忠;姚明超;顾思义 申请(专利权)人: 浙江工业大学
主分类号: G06F16/30 分类号: G06F16/30;G06F40/289
代理公司: 杭州斯可睿专利事务所有限公司 33241 代理人: 王利强
地址: 310014 浙江省杭*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 针对 论坛 文本 主题 挖掘 方法
【权利要求书】:

1.一种针对论坛文本的主题挖掘方法,其特征在于,所述方法包括以下步骤:

步骤1:爬取论坛的数据,利用文本处理手段找出大概率可能是无意义的回复,并做好标记;

步骤2:对论坛文本按照句子切割,之后进行分词,根据词性删除无用的词,去停用词;

步骤3:对现有的文本根据BBS-LDA主题模型使用Gibbs Sampling进行参数估计,最终得到属于每个主题可能性最大的词语;

所述步骤3中,所述BBS-LDA主题模型中,BBS-LDA将同一个帖子中的回复聚集在一起,并把回复切分成句;对于属于同一个帖子的句子,其主题是从同一个主题分布采样而来,且句子中的每个词所属的主题和句子的主题一致;同时,每个句子都有一定的概率被采样为无意义的句子,每个词都有一定的概率被采样为背景词,所述背景词与句子的主题无关,且这些概率与发表该回复的用户有关;

所述BBS-LDA主题模型的参数估计过程为:

(3.1)采样第p个帖子中第s个句子所对应的标记变量rp,s和句子的主题zp,s公式如下:

当rp,s=1时,句子主题为k的概率计算如下:

其中,Γ()是gamma函数,Γ(x+1)=xΓ(x),表示当前正在采样的句子中的词v属于主题k的个数,是一个向量,一共有二维,表示用户u发表的有意义的句子的个数,表示用户u发表的无意义的句子的个数,Su表示用户u所发的句子的数目,是一个向量,一共k维,表示第p个帖子中主题为k的句子的个数,Qp表示第p个帖子中有意义的句子的个数,一共V维,R(v)表示单词v属于无意义词的个数,R表示无意义的词的个数,是一个向量,有V维,表示语料库中每个单词属于主题k的个数,下标带有表示语料库排除当前采样句子的计数;

rp,s=0的概率计算如下:

其中,C表示当前采样句子中无意义词的个数,C(v)表示当前采样句子中的词v属于无意义词的个数;

(3.2)采样句子中的每个词的标记变量t的公式如下:

词x属于背景词的概率计算如下:

其中,有二维,表示用户u发表的词中属于背景词的数量,表示用户u发表的词中不属于背景词的词的数量,有V维,O(v)表示单词v属于背景词的数量,O表示所有背景词的数量;

词x不属于背景词的概率计算如下:

如果该单词所在的句子对应的标志变量rp,s=1,且zp,s=k

如果该单词所在的句子对应的标志变量rp,s=0

(3.3)当模型收敛的时候,各个单词属于每个主题的概率计算如下:

2.如权利要求1所述的一种针对论坛文本的主题挖掘方法,其特征在于,所述步骤1包括以下步骤:

步骤11:通过爬虫爬取论坛中的文本,爬取的内容包括回复的内容,回复的用户,该条回复所对应的帖子的id,主帖也被当成一条回复,回复的用户为楼主;

步骤12:对于字数小于10的回复,使用Jieba分词工具分词,统计高频词,并人工筛选出一份词典,包含词典里面的词的短回复是无意义的回复,并做好标记;

步骤13:对每个用户遍历其所有回复,通过Simhash找出相似度高的回复,如果相似度高的回复计数大于3,这些回复是广告或者无意义的回复,并做好标记。

3.如权利要求1所述的一种针对论坛文本的主题挖掘方法,其特征在于,所述步骤2包括以下步骤:

步骤21:对论坛中的所有回复按照“。”、“!”、“?”和换行进行切割,把长回复分割成一个个句子,句子的作者为原来回复的作者,如果该句子所在的回复在步骤1已经被标记为无意义回复,则该句子也属于无意义的句子;

步骤22:对所有句子使用Jieba分词工具分词,根据词性删除数字、标点、语气词等不包含语义的词性,并删除停用词。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810418998.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top