[发明专利]网络信息的挖掘方法和装置在审

专利信息
申请号: 201210321780.0 申请日: 2012-09-03
公开(公告)号: CN103678320A 公开(公告)日: 2014-03-26
发明(设计)人: 杨小锐;肖镜辉;周晓波;司天歌;刘玉国 申请(专利权)人: 腾讯科技(深圳)有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 广州华进联合专利商标代理有限公司 44224 代理人: 何平;曾旻辉
地址: 518044 广东省深圳*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 网络 信息 挖掘 方法 装置
【权利要求书】:

1.一种网络信息的挖掘方法,包括如下步骤:

获取通过浏览器上传得到的浏览器数据;

通过分类模型对上传的浏览器数据进行分类,得到所述浏览器数据所属的类别;

获取与所述类别相关的网络信息,将所述获取的网络信息推送到所述浏览器。

2.根据权利要求1所述的网络信息的挖掘方法,其特征在于,所述通过分类模型对上传的浏览器数据进行分类,得到所述浏览器数据所属的类别的步骤之前还包括:

根据预设的类别信息对存储的浏览器数据进行扫描得到所述存储的浏览器数据对应的类别;

对存储的浏览器数据和类别进行开方检验得到所述类别对应的特征,并通过所述特征得到所述类别的特征集合以及相应的特征向量;

对所述类别的特征集合进行概率计算得到所述特征集合中特征对应的后验概率;

通过所述类别、所述类别的特征集合、相应的特征向量以及所述特征集合中特征对应的后验概率构建分类模型。

3.根据权利要求2所述的网络信息的挖掘方法,其特征在于,所述对存储的浏览器数据和类别进行开方检验得到所述类别对应的特征,并通过所述特征得到所述类别的特征集合以及相应的特征向量的步骤为:

将每一类别和所述存储的浏览器数据中的词进行开方检验得到所述词和所述类别之间的开方值;

判断所述开方值是否大于阈值,若是,则将所述词作为所述类别的特征,并形成所述类别的特征集合;

在与所述类别相对应的浏览器数据中查找与所述类别的特征相匹配的词,并根据查找结果生成所述特征集合的特征向量。

4.根据权利要求3所述的网络信息的挖掘方法,其特征在于,所述在与所述类别相对应的浏览器数据中查找与所述类别的特征相同的词,并根据查找结果生成所述特征集合的特征向量的具体过程为:

根据所述类别的特征在所述类别对应的浏览器数据中进行查找,判断所述特征是否存在于所述类别对应的浏览器数据中,若是,则

将所述特征在特征向量中对应的元素设置为预设值;

若否,则将所述特征在特征向量中对应的元素设置为零。

5.根据权利要求4所述的网络信息的挖掘方法,其特征在于,所述将所述特征向量中对应的元素设置为预设值的步骤之后还包括:

计算所述类别对应的特征集合中每一特征所对应的权值,并将所述特征集合的特征向量中的预设值变换为特征对应的权值。

6.根据权利要求2所述的网络信息的挖掘方法,其特征在于,所述通过分类模型对上传的浏览器数据进行分类,得到所述浏览器数据所属的类别的步骤为:

计算所述上传的浏览器数据和特征集合之间的匹配度,并选取所述计算得到的匹配度中的最高匹配度;

获取所述最高匹配度对应的特征集合,并根据所述特征集合得到相应的类别,所述类别即为所述上传的浏览器数据所属的类别。

7.根据权利要求6所述的网络信息的挖掘方法,其特征在于,所述获取所述最高匹配度对应的特征集合,并根据所述特征集合得到相应的类别,所述类别即为所述上传的浏览器数据所属的类别的步骤之前还包括:

判断所述最高匹配度是否大于匹配阈值,若是则进入所述获取所述最高匹配度对应的特征集合,并根据所述特征集合得到相应的类别,所述类别即为所述上传的浏览器数据所属的类别的步骤。

8.根据权利要求7所述的网络信息的挖掘方法,其特征在于,所述判断所述最高匹配度是大于匹配阈值的步骤之前还包括:

判断所述上传的浏览器数据中记录的网络地址是否存在于存储的浏览器数据中,若是,则降低预设的匹配阈值;

统计所述浏览器数据中包含的特征个数,根据所述统计的个数调整匹配阈值。

9.一种网络信息的挖掘装置,其特征在于,包括:

数据获取模块,用于获取通过浏览器上传得到的浏览器数据;

分类模块,用于通过分类模型对上传的浏览器数据进行分类,得到所述浏览器数据所属的类别;

推送模块,用于获取与所述类别相关的网络信息,将所述获取的网络信息推送到所述浏览器。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210321780.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top