[发明专利]微博敏感话题的检测方法、装置及可读存储介质在审
| 申请号: | 201810965144.9 | 申请日: | 2018-08-23 |
| 公开(公告)号: | CN110858217A | 公开(公告)日: | 2020-03-03 |
| 发明(设计)人: | 于琳琳;张丹;于晓明 | 申请(专利权)人: | 北大方正集团有限公司;北京北大方正电子有限公司 |
| 主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/332;G06F16/35;G06K9/62 |
| 代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 张子青;刘芳 |
| 地址: | 100871 北京市海*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 敏感 话题 检测 方法 装置 可读 存储 介质 | ||
1.一种微博敏感话题的检测方法,其特征在于,包括:
对采集获得的微博信息进行预处理,获得待分析的微博信息的句子特征空间,所述句子特征空间包括组成所述待分析的微博信息的分词和相应的分词权重;
利用预设的词语向量特征库构建所述微博信息的每一分词对应的语义特征向量,并根据所述每一分词对应的语义特征向量和分词权重构建微博信息的句子特征向量;
利用预设的聚类算法,对所述微博信息对应的各句子特征向量进行聚类,以获得聚类话题;
根据敏感信息特征库,在各聚类话题中确定敏感话题。
2.根据权利要求1所述的微博敏感话题的检测方法,其特征在于,所述利用预设的词语向量特征库构建所述微博信息中每一分词对应的语义特征向量之前,还包括:
根据采集的训练语料集以及网络常用语词典,对预设的待训练的基于表示学习的神经网络模型进行训练,获得词语向量特征库,其中所述词语向量特征库用于将所述微博信息每一分词映射为对应的语义特征向量。
3.根据权利要求1所述的微博敏感话题的检测方法,其特征在于,所述对采集获得的微博信息进行预处理,获得待分析的微博信息的句子特征空间,包括:
对采集获得的微博信息进行文本提取,获得微博文本;
对所述微博文本进行中文分词处理并统计每一分词的词频,以确定待分析的微博信息的分词和相应的分词权重。
4.根据权利要求1所述的微博敏感话题的检测方法,其特征在于,所述预设的聚类算法包括K-means增量聚类算法;
所述利用预设的聚类算法,对所述微博信息对应的各句子特征向量进行聚类,以获得聚类话题,包括:
根据微博信息对应的句子特征向量,确定多个聚类中心作为当前聚类中心;
针对每个当前聚类中心,计算各句子特征向量与其的相似度;
根据各句子特征向量与每个当前聚类中心相应的相似度确定每个句子特征向量所属的当前聚类中心;
重新确定多个聚类中心并作为下一聚类中心,确定每个句子特征向量所属的下一聚类中心;判断当前聚类中心和下一聚类中心之间的偏移量;
当所述偏移量符合预设条件时,则根据该下一聚类中心和属于各下一聚类中心的句子特征向量,构建聚类话题;
当所述偏移量不符合预设条件时,重复所述根据微博信息对应的句子特征向量,确定多个聚类中心作为当前聚类中心直至所述偏移量符合预设条件。
5.根据权利要求1所述的微博敏感话题的检测方法,其特征在于,所述根据敏感信息特征库,在各聚类话题中确定敏感话题,包括:
根据TF-IDF算法和预设的词语向量特征库,确定每个聚类话题的关键词及相应的关键词语义特征向量;
针对于每个聚类话题的每个关键词的关键词语义特征向量,计算其与敏感信息特征库中各敏感信息的相似度;
根据相似度计算结果,确定敏感话题。
6.一种微博敏感话题的检测装置,其特征在于,包括:
分词处理模块,用于对采集获得的微博信息进行预处理,获得待分析的微博信息的句子特征空间,所述句子特征空间包括组成所述待分析的微博信息的分词和相应的分词权重;
特征向量生成模块,用于利用预设的词语向量特征库构建所述微博信息的每一分词对应的语义特征向量,并根据所述每一分词对应的语义特征向量和分词权重构建微博信息的句子特征向量;
聚类模块,用于利用预设的聚类算法,对所述微博信息对应的各句子特征向量进行聚类,以获得聚类话题;
敏感话题确定模块,用于根据敏感信息特征库,在各聚类话题中确定敏感话题。
7.根据权利要求6所述的微博敏感话题的检测装置,其特征在于,还包括词语向量特征库构建模块;
所述词语向量特征库构建模块用于在所述特征向量生成模块利用预设的词语向量特征库构建所述微博信息中每一分词对应的语义特征向量之前,据采集的训练语料集以及网络常用语词典,对预设的待训练的基于表示学习的神经网络模型进行训练,获得词语向量特征库,其中所述词语向量特征库用于将所述微博信息每一分词映射为对应的语义特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京北大方正电子有限公司,未经北大方正集团有限公司;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810965144.9/1.html,转载请声明来源钻瓜专利网。





