[发明专利]微博信息追踪方法和微博信息追踪装置在审
| 申请号: | 201410211030.7 | 申请日: | 2014-05-19 |
| 公开(公告)号: | CN103984729A | 公开(公告)日: | 2014-08-13 |
| 发明(设计)人: | 洪毅虹;费跃;杨建武 | 申请(专利权)人: | 北京大学;北大方正集团有限公司;北京北大方正电子有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京友联知识产权代理事务所(普通合伙) 11343 | 代理人: | 尚志峰;汪海屏 |
| 地址: | 100871*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 信息 追踪 方法 装置 | ||
1.一种微博信息追踪方法,其特征在于,包括:
预设训练集合,其中,所述训练集合包括至少一个话题、前景语料和背景语料,所述前景语料为在所述话题发生的时间戳之后发布的微博信息,所述背景语料为在所述话题发生的时间戳之前发布的微博信息;
获取所述话题的前景语料中每一条微博信息的文本特征、相关反馈特征和相关性特征,以得到有关于所述训练集合的特征集合;
根据所述特征集合训练生成话题追踪模型;
使用所述话题追踪模型对需进行追踪的微博信息进行追踪。
2.根据权利要求1所述的微博信息追踪方法,其特征在于,所述获取所述话题的前景语料中每一条微博信息的文本特征、相关反馈特征和相关性特征,具体包括:
根据所述背景语料中每一条微博信息中的词建立倒排索引;
获取所述前景语料中每一条微博信息的内容信息,将所述内容信息添加至所述索引中;
使用狄利克雷平滑算法和所述索引获取微博信息中词的分布,利用预先建立的语言模型确定所述前景语料中的每一条微博信息的语义特征,其中,所述语言模型中的词的分布是使用所述狄利克雷平滑算法和索引获取的;
根据所述前景语料中的微博信息包含的特征名确定所述微博信息的质量特征,所述语义特征和所述质量特征为所述前景语料中的微博信息的文本特征;
计算所述前景语料中的微博信息与已确定的且与所述话题相关的微博信息之间的相关度,所述相关度是所述前景预料中的微博信息的相关反馈特征;
将所述训练集合中预先标注的微博信息与所述话题的相关性作为所述相关性特征。
3.根据权利要求2所述的微博信息追踪方法,其特征在于,所述背景语料中每一条微博信息中词的分布数据的获取过程包括:
提取所述背景语料中的微博信息的原始文本的短链接,根据所述短链接获取所述微博信息的扩展主题信息,将所述扩展主题信息特征至所述背景语料中,以及对所述背景语料中的内容和表示所述话题关键词集合进行预处理,得到所述词的分布数据;
获取所述前景语料中每一条微博信息的内容信息,具体包括:
提取所述前景语料中的微博信息的原始文本的短链接,根据所述短链接获取所述微博信息的扩展主题信息,以及根据所述微博信息的原始文本信息和扩展主题信息生成所述内容信息。
4.根据权利要求3所述的微博信息追踪方法,其特征在于,获取所述微博信息的扩展主题信息的方法包括:
将所述微博信息的短链接还原成原始的长链接,从所述长链接中解析出网站关键字集合;
将所述网站的网页代码中解析出标签的内容,将所述标签的内容分割成多个子字符串;
将不包含所述网站关键字集合中任一关键字的子字符串作为所述微博信息的扩展主题信息。
5.根据权利要求2至4中任一项所述的微博信息追踪方法,其特征在于,还包括:
将触发信息添加进滑动窗口,其中,所述触发信息为与所述话题相关的且时间最早的微博信息;
根据判断结果将与所述话题相关的微博信息添加进所述滑动窗口,将所述滑动窗口中的微博信息作为判断所述前景语料中的下一条微博信息是否与所述话题相关的依据。
6.根据权利要求5所述的微博信息追踪方法,其特征在于,采用梯度下降算法对所述特征集合进行训练,得到所述话题追踪模型,其中,使用所述话题追踪模型对需进行追踪的微博信息进行追踪包括:
计算得到实时微博信息的文本特征和相关反馈特征;
使用所述文本特征和相关反馈特征以及所述话题追踪模型计算出实时微博信息与所述话题的相关性分数;
将所述相关性分数大于等于阈值的实时微博信息添加进所述滑动窗口中。
7.一种微博信息追踪装置,其特征在于,包括:
设置单元,预设训练集合,其中,所述训练集合包括至少一个话题、前景语料和背景语料,所述前景语料为在所述话题发生的时间戳之后发布的微博信息,所述背景语料为在所述话题发生的时间戳之前发布的微博信息;
特征集合获取单元,获取所述话题的前景语料中每一条微博信息的文本特征、相关反馈特征和相关性特征,以得到有关于所述训练集合的特征集合;
微博话题追踪模型生成单元,根据所述特征集合训练生成微博话题追踪模型;
追踪单元,使用所述微博话题追踪模型对需进行追踪的微博信息进行追踪。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学;北大方正集团有限公司;北京北大方正电子有限公司,未经北京大学;北大方正集团有限公司;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410211030.7/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





