[发明专利]建立兴趣模型的方法及装置有效

专利信息
申请号: 201210279366.8 申请日: 2012-08-07
公开(公告)号: CN102831199A 公开(公告)日: 2012-12-19
发明(设计)人: 周浩;邓夏玮 申请(专利权)人: 北京奇虎科技有限公司;奇智软件(北京)有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京市浩天知识产权代理事务所 11276 代理人: 刘云贵
地址: 100088 北京市西城区新*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 建立 兴趣 模型 方法 装置
【说明书】:

技术领域

发明涉及网络技术领域,具体涉及一种建立兴趣模型的方法及装置。

背景技术

传统的浏览器和搜索引擎提供了大量的信息资源,但由于没有考虑到用户的个人兴趣爱好,不同的用户使用浏览器和搜索引擎得到的信息是相同的,这种不加区分的信息资源不能满足用户的个性化需求。因此,基于用户兴趣的个性化推荐服务已经成为研究与开发的热点。

在个性化推荐服务中,有关用户兴趣模型的研究成为核心和关键技术。目前,用户兴趣模型的建模方法主要有:手工定制建模,即由用户自行输入或选择的建模方法,该方法完全依赖于用户,并且无法准确地反映出用户兴趣;示例建模,即由用户提供与兴趣相关的示例及类别属性的建模方法,该方法需要用户在浏览过程中标注页面以得到示例,干扰了用户的正常浏览;自动建模,即根据用户的浏览内容和浏览行为构建用户模型,建模过程无需用户主动提供信息,不会对用户造成干扰,但是目前这种方法处于起步阶段,还不能完全利用浏览器和搜索引擎提供的大量的信息资源,无法有效地反映出用户的兴趣。

发明内容

鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的建立兴趣模型的方法和相应的建立兴趣模型的装置。

依据本发明的一个方面,提供了一种建立兴趣模型的方法,包括:

通过调用各用户端设备的浏览器记录的浏览历史数据和/或收藏夹数据,以及采集各用户端设备使用搜索引擎时的搜索关键词,获取数据样本;

从所述数据样本中提取特征词,并获取各用户端设备访问所述特征词的频次;

根据所有用户端设备的特征词,得到各级兴趣类别,每级兴趣类别包括多个兴趣分类;

对于其中一个用户端设备,根据该用户端设备的特征词以及该用户端设备访问特征词的频次获得每级兴趣类别中每个兴趣分类的兴趣值,从而建立该用户端设备的兴趣模型。

可选地,所述获取数据样本包括:

调用各用户端设备的浏览器记录的浏览历史数据和/或收藏夹数据获取第一数据样本;

通过采集各用户端设备使用搜索引擎时的搜索关键词获取第二数据样本;

通过调用服务器记录的用户日志数据,获取第三数据样本;

由所述第一数据样本、所述第二数据样本、和所述第三数据样本得到所述数据样本。

可选地,所述数据样本包括用户端设备浏览网页的统一资源定位符和搜索关键词;

所述方法还包括:对数据库中存储的所有统一资源定位符进行特征化处理,为各统一资源定位符标记特征词;

所述从数据样本中提取特征词包括:

将所述用户端设备浏览网页的统一资源定位符与数据库存储的统一资源定位符进行对比,得到对比一致的所述数据库中的统一资源定位符的特征词,作为所述数据样本的特征词;

将所述搜索关键词进行分词处理后并去掉停用词,得到所述数据样本的特征词。

可选地,所述根据所有用户端设备的特征词,得到各级兴趣类别包括:

通过分类算法,对所有用户端设备的特征词进行分类处理,得到k级兴趣类别,所述k级兴趣类别包括多个兴趣分类,k≥2;

通过k-1次聚类算法,对k级兴趣类别的多个兴趣分类进行聚类处理,得到k-1个i级兴趣类别,其中i∈[1,k-1]。

可选地,在所述建立用户端设备的兴趣模型之后还包括:通过调用用户端设备的浏览器记录的浏览历史数据和/或收藏夹数据以及采集用户端设备使用搜索引擎时的搜索关键字,重新获取该用户端设备的数据样本;从该用户端设备的数据样本中提取特征词,并获取该用户端设备访问特征词的频次;根据该用户端设备的特征词以及该用户端设备访问特征词的频次,重新获得每级兴趣类别中每个兴趣分类的兴趣值,对用户端设备的兴趣模型进行优化更新。

可选地,在所述建立用户端设备的兴趣模型之后还包括:将所述兴趣模型中指定兴趣值对应的兴趣分类的内容推送给用户端设备。

可选地,在所述根据所有用户端设备的特征词,得到各级兴趣类别之前还包括:对所有用户端设备的特征词进行去重处理。

根据本发明的另一方面,提供了一种建立兴趣模型的装置,包括:

样本获取模块,用于通过调用各用户端设备的浏览器记录的浏览历史数据和/或收藏夹数据,以及采集各用户端设备使用搜索引擎时的搜索关键词,获取数据样本;

特征词提取模块,用于从所述数据样本中提取特征词,并获取各用户端设备访问所述特征词的频次;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210279366.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top