[发明专利]基于网页类型的信息推送方法和装置有效

专利信息
申请号: 201310410102.6 申请日: 2013-09-10
公开(公告)号: CN103440342B 公开(公告)日: 2016-10-26
发明(设计)人: 梁捷;李建兴;李建设 申请(专利权)人: 广州市动景计算机科技有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京弘权知识产权代理事务所(普通合伙) 11363 代理人: 逯长明;许伟群
地址: 510627 广东省广州市天河区*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 网页 类型 信息 推送 方法 装置
【说明书】:

技术领域

发明涉及移动通信技术领域,特别涉及一种基于网页类型的信息推送方法和装置。

背景技术

数据聚类是当前互联网应用的一个热点,经过几十年的发展,网络用户和互联网规模呈现爆发式增长,少量的有用信息往往会被海量的互联网数据所淹没,仅靠用户个人主动浏览网页已经很难有效获取关键信息。在这种情况下,互联网从单纯被动地展示信息开始向主动推送信息转变,为了使推送的信息更为快速准确,必须对全部互联网信息进行初步筛选,数据聚类就是一种用来在互联网信息之间建立关联的信息分类方法。

由于推送信息通常不是用户主动要求的信息,很容易被用户所反感,因而推送的精准性显得尤为重要。一般情况下,推送信息主要包括搜索结果、新闻、生活娱乐信息和广告等,推送信息的精准投放越来越受到重视,基于用户当前浏览网页的类型推送相关的信息就是其中一种实现思路。比如基于网页内容的广告定向技术,就是指在浏览器返回的页面中追加一条广告,广告的类别尽可能与网页类型相符。通过数据聚类,网络推送可以从关联度较高的信息中进行优选,但由于要实时在线对用户当前浏览的网页进行归类,对相关分类算法的性能提出了苛刻的要求。

目前网页分类通常使用机器学习算法,如朴素贝叶斯(Naive Bayes)算法、KNN(K-nearest neighbor)算法、支持向量机(Support Vector Machine,SVM)算法、神经网络(Artificial Neural Network,ANN)算法等。这些算法的基本思路都是基于文档的向量空间模型,通过大量已标注分类的文档作训练,得到训练后的模型来预测新网页的分类。

现有技术这些机器学习算法的主要问题有:

(1)需要大量的已标注好分类的样本,工作量大,并且分类器的质量受标注样本的质量影响比较大。获取标注分类网页通常是靠人工标注,这种方法的优点是标注样本质量高,但需耗费大量人力。还有一些做法是利用互联网的分类导航网站或搜索引擎定向爬取页面,这种方法的优点是可以自动化标注,但样本的质量不高,噪音较大,类别也不一定能满足自身所需,即获取网页的效率低、准确率低。

(2)部分算法(如ANN算法、SVM算法等)本身比较复杂,运行开销高,只适合离线处理,不能用于性能要求较高的在线实时处理,即实时性低。

基于上述获取网页的方法,进行信息推送时,造成信息推送效率低下,实时性低。

发明内容

针对现有技术的缺陷,本发明所要解决的技术问题是如何实时高效地进行精准的信息推送。

为解决上述问题,本发明的一方面提供了一种基于网页类型的信息推送方法,所述方法包括步骤:

利用预先获得的历史页面描述词语的共现关系获取各个所述历史页面描述词语对应不同页面类型的类型权值;其中,所述共现关系用于表示词语间的共存状态;以所述类型权值为词语的属性构建词语分类属性库;利用实时获取的当前页面描述词语在所述词语分类属性库中进行查询,获取当前页面描述词语的各个页面类型的类型权值;计算每个页面类型中各个当前页面描述词语的类型权值之和,将类型权值之和最大的页面类型设置为所述当前浏览网页的类型;基于所述当前浏览网页的类型在用户当前浏览网页中推送网络信息。

优选地,所述利用预先获得的历史页面描述词语的共现关系获取各个所述历史页面描述词语对应不同页面类型的类型权值的步骤包括:

利用历史页面描述词语的共现关系建立词语网络;

根据所述共现关系获取所述词语网络中各历史页面描述词语间的关联强度;

遍历所述词语网络,获取各个所述历史页面描述词语间的距离;

根据预先给每个设定的分类核心词赋予的初始权值、所述距离、所述关联强度以及预设的衰减强度,获取各个所述历史页面描述词语对应不同页面类型的类型权值。

优选地,所述根据共现关系获取所述词语网络中各历史页面描述词语间的关联强度的步骤包括:

根据所述共现关系获取各个历史页面描述词语共同出现的次数;

根据如下公式获取各历史页面描述词语间的关联强度:

Sij=Cij/Max(C)

其中,Cij是词i与词j的共现次数;Max(C)是词语间的共现次数最大的。

优选地,所述根据给每个分类核心词赋予的初始权值、所述距离、所述关联强度以及预设的衰减强度,获取各个所述历史页面描述词语对应不同页面类型的类型权值的步骤包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州市动景计算机科技有限公司,未经广州市动景计算机科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310410102.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top