[发明专利]一种确定微博热门话题的方法及装置在审
申请号: | 201510591206.0 | 申请日: | 2015-09-16 |
公开(公告)号: | CN105159882A | 公开(公告)日: | 2015-12-16 |
发明(设计)人: | 张玉清;周传锋;李北格 | 申请(专利权)人: | 中国地质大学(北京) |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 王卫忠;姜燕 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 确定 热门话题 方法 装置 | ||
1.一种确定微博热门话题的方法,其特征在于,包括:
获取意见领袖的微博;
对所述微博进行分句提取有效句子,将所述有效句子用语义相近的较短的有效句子替代,以获得新微博形成新微博集合;
对所述新微博集合中的新微博的有效句子进行聚类确定微博热门话题。
2.如权利要求1所述的确定微博热门话题的方法,其特征在于,获取意见领袖的微博包括:利用定向网络爬虫获取意见领袖发表的微博,或采用关注模式获取意见领袖发表的微博。
3.如权利要求1所述的确定微博热门话题的方法,其特征在于,将所述有效句子用语义相近的较短的有效句子替代包括:
将所述微博句子集合中的有效句子进行正则匹配,将匹配相似的有效句子中较长的有效句子用较短的有效句子替代。
4.如权利要求3所述的确定微博热门话题的方法,其特征在于,将所述微博句子集合中的有效句子进行正则匹配包括:
将较短的有效句子中每个字的前后加入通配符形成匹配条件,判断较长的有效句子是否满足所述匹配条件。
5.如权利要求3所述的确定微博热门话题的方法,其特征在于,将所述微博句子集合中的有效句子进行匹配包括:遍历所述微博集合,对所述微博集合中所有的有效句子进行两两匹配。
6.如权利要求1所述的确定微博热门话题的方法,其特征在于,对所述新微博集合中的新微博的有效句子进行聚类确定微博热门话题包括:
对所述新微博集合中各新微博进行遍历,依次对所述各新微博设置编号作为微博的根,根据所述微博的根对所述各新微博中所包含的有效句子进行标号,包括若所述有效句子第一次出现,则将所述有效句子的标号设置为所述有效句子所在的新微博的根,否则将所述有效句子的标号设置为第一个出现所述有效句子的微博的根;
根据新微博的根以及各有效句子标号,确定所述新微博所属的类别,所述类别至少包括祖先微博和从属微博,其中所述祖先微博为所有的有效句子均第一次出现的新微博,所述从属微博为所包括的有效句子标号除了为所述新微博的根之外其他的有效句子标号属于同一祖先微博的根或所述祖先微博的下面的从属微博的根的新微博;
查找各从属微博的祖先微博,将祖先微博相同的新微博所对应的原微博进行合并确定微博热门话题。
7.如权利要求6所述的确定微博热门话题的方法,其特征在于,所述类别还包括噪声微博,所述噪声微博为从属于不同祖先微博的新微博;
根据新微博的根以及各有效句子标号,确定所述新微博所属的类别包括:
如果新微博中所有有效句子的标号相同,且均为所述新微博的根,则确定所述新微博为祖先微博;
如果新微博中有效句子标号除了所述新微博的根之外还有一个有效句子标号,则确定所述新微博属于从属微博,从属于根为所述有效句子标号的新微博;
如果新微博中有效句子标号中除了所述新微博的根之外还有至少两个不同的句子标号,且根为所述至少两个不同的句子标号的至少两个新微博是同一祖先微博的从属微博,则确定所述新微博为从属微博,且从属于所述同一祖先微博,否则确定所述新微博为噪声微博。
8.如权利要求1所述的确定微博热门话题的方法,其特征在于,所述方法还包括:对所述新微博集合中的新微博的有效句子进行聚类确定微博热门话题之后还包括:
对所确定的热门话题所相关的新微博进行句子频率统计,将出现频率最高的有效句子作为所述热门话题的标题。
9.如权利要求1所述的确定微博热门话题的方法,其特征在于,所述方法还包括:对所述新微博集合中的新微博的有效句子进行聚类确定微博热门话题之后还包括:
对所确定的热门话题所相关的新微博进行统计,根据统计结果确定所述热门话题的热度,根据所述热度对所述热门话题进行排序。
10.一种确定微博热门话题的装置,其特征在于,包括:
微博获取单元,用于获取意见领袖的微博;
分句单元,用于对所述微博进行分句提取有效句子,将所述有效句子用语义相近的较短的有效句子替代,以获得新微博形成新微博集合;
热门话题确定单元,用于对所述新微博集合中的新微博的有效句子进行聚类确定微博热门话题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质大学(北京),未经中国地质大学(北京)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510591206.0/1.html,转载请声明来源钻瓜专利网。