[发明专利]数据处理方法和设备有效
申请号: | 201210202800.2 | 申请日: | 2012-06-15 |
公开(公告)号: | CN103514167B | 公开(公告)日: | 2017-03-01 |
发明(设计)人: | 张波;孟遥;于浩 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 朱胜,陈炜 |
地址: | 日本神*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 设备 | ||
1.一种数据处理方法,包括:
活跃时间区间确定步骤,用于确定具有相似活跃习惯的微博用户群,并且基于所确定的微博用户群中的关注用户发布的微博来确定各个微博用户群的活跃时间区间;
关键词提取步骤,用于从所确定的活跃时间区间内的所有微博提取关键词;以及
话题确定步骤,用于基于所提取的关键词,确定所确定的活跃时间区间内的相应话题。
2.根据权利要求1所述的数据处理方法,其中,在所述活跃时间区间确定步骤中,确定具有相似活跃习惯的微博用户群进一步包括:
用户向量构建子步骤,用于根据微博用户以往发布微博的时间和数量来构建具有预定维数的用户向量;
边确定子步骤,基于各用户向量之间的相似度,确定用户节点之间的边;
微博用户群构建子步骤,用于基于所确定的边,构建具有相似活跃习惯的微博用户群;以及
关注用户确定子步骤,用于基于各微博用户的粉丝数量、发布的微博数量、对该微博用户所发布的微博的回复数量以及对该微博用户所发布的微博的转发数量中的一个或多个,确定该微博用户的权威度,从而基于所述权威度从所述微博用户群中选择预定数量的微博用户作为所述关注用户。
3.根据权利要求1所述的数据处理方法,其中,在所述活跃时间区间确定步骤中,基于所确定的微博用户群中的关注用户发布的微博来确定各个微博用户群的活跃时间区间进一步包括:
微博数量统计子步骤,用于统计在预定时期的各个时段内所述关注用户发布的微博的数量,从而得到与时间相关的微博数量序列;
序列递归分割子步骤,用于对所统计的微博数量序列进行递归分割,从而得到一个或多个分割点;以及
活跃时间区间选择子步骤,用于在基于所得到的分割点确定的时间区间中选择标准方差较大的前N个时间区间作为所述活跃时间区间,其中N大于等于1,
其中,在所述序列递归分割子步骤中:
针对当前序列中的每个点,根据以下公式进行计算:
AnthorV(i)=|L1(i)|*Var(L1(i))/|L|+|L2(i)|*Var(L2(i))/|L|
DiffV(i)=Var(L(i))-AnthorV(i)
其中,|L1(i)|、|L2(i)|分别表示假定i为当前分割点对当前序列分割后得到的两个子序列的长度,|L|表示当前序列的长度,Var()表示当前序列或子序列的标准方差;
找出当前序列中DiffV(i)最大的点;以及
如果该点的DiffV(i)小于预定阈值,则停止递归分割,否则取该点作为当前序列的分割点将当前序列分成两个子序列,并继续对这两个子序列分别进行递归分割。
4.根据权利要求1所述的数据处理方法,其中,所述话题确定步骤进一步包括:
候选关键词列表确定子步骤,用于针对所确定的活跃时间区间,计算所提取的各个关键词的权重,并将权重大于预定阈值的关键词归入所述活跃时间区间的候选关键词列表中;
关键词相关度计算子步骤,用于计算所确定的候选关键词列表中的任意两个关键词之间的相关度;
图构造子步骤,用于以所述候选关键词列表中的各个关键词为节点、以算出的大于预定阈值的相关度作为关键词之间的边来构造图;以及
话题确定子步骤,用于基于所构造的图,采用聚类算法,确定所确定的活跃时间区间内的相应话题。
5.一种数据处理设备,包括:
活跃时间区间确定单元,被配置成确定具有相似活跃习惯的微博用户群,并且基于所确定的微博用户群中的关注用户发布的微博来确定各个微博用户群的活跃时间区间;
关键词提取单元,被配置成从所确定的活跃时间区间内的所有微博提取关键词;以及
话题确定单元,被配置成基于所提取的关键词,确定所确定的活跃时间区间内的相应话题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210202800.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种阴阳型耐磨钢球
- 下一篇:一种除水剂及其在淬火油除水的新方法中的应用