[发明专利]网页相关关键词的抽取处理方法和系统有效
| 申请号: | 201310046107.5 | 申请日: | 2013-02-05 |
| 公开(公告)号: | CN103970800B | 公开(公告)日: | 2018-06-15 |
| 发明(设计)人: | 王莉峰 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 张晓峰;宋志强 |
| 地址: | 518044 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 网页 抽取 候选关键词 上下文信息 权重 抽取模块 网络媒介 页面内容 相关度 排序 网页访问请求 用户行为信息 关键词词典 访问网页 模块获取 权重计算 受众特征 信息搜集 信息投放 浏览 覆盖率 展示 | ||
本发明公开了一种网页相关关键词的抽取处理方法和系统,包括:信息搜集模块获取指定网页的页面内容和上下文信息,所述上下文信息包括该网页的入链锚信息、和与该网页相关的用户行为信息;第一抽取模块在收到网页访问请求后,根据网络媒介信息投放方的关键词词典,从所访问网页的页面内容和上下文信息中抽取候选关键词;权重排序模于对所抽取的各候选关键词进行权重计算,并根据权重进行排序;第二抽取模块从所述候选关键词中抽取权重排名前n位的关键词,所述n为指定值。利用本发明,可以提高关键词对网页受众特征的覆盖率和相关度,提高在网页上展示的网络媒介信息与浏览该网页的用户的相关度。
技术领域
本发明涉及互联网的数据处理技术,尤其涉及一种网页相关关键词的抽取处理方法和系统。
背景技术
网络媒介信息是一种在互联网系统的各种展示媒介(如网页、客户端界面等)上发布的以数字代码为载体的各种信息。有些网络媒介信息还对应有目标网页,用户点击了网络媒介信息即可跳转到对应的目标网页,目标网页的内容就会展现在用户面前。
网络媒介信息的发布展示技术最近几年发展非常迅猛,已经应用到许多产业领域。例如互联网的网络广告处理展示领域中,互联网网络广告就是一种网络媒介信息。
如何有效地向特定的受众展示网络媒介信息,并对所展示的媒介信息进行有效的管理,是目前互联网技术业界所关注的一个领域。为了解决前述问题,目前业界出现了一种网络媒介信息发布展示系统。网络媒介信息发布展示系统是一种组织、发布、展示、管理网络媒介信息的数据处理系统。
为了有效地向特定的受众展示相关度较高的网络媒介信息,在现有的一种网络媒介信息发布展示系统中,采用了网页相关关键词抽取技术。所述网页相关关键词抽取技术就是:在与所述网络媒介信息发布展示系统关联的网站上展示网络媒介信息时,从当前用户访问的网页的内容中抽取可以反映该网页主题的关键词,然后从网络媒介信息数据平台中选择投放方所投放的、与该关键词相关度最高的网络媒介信息,将该网络媒介信息发送给当前用户访问的网页上进行展示。
但是,现有的这种网页相关关键词抽取技术存在一个主要的缺点,即:在抽取关键词时,只从当前网页的页面内容中,如标题、正文、meta keywords标签、超链接等页面内容中,抽取关键词,导致抽取的关键词信息数量有限,关键词对网页受众特征的覆盖率较低,所述网页受众特征就是浏览该网页的受众即用户所具有的特征;在网页的文本内容较少时,现有技术甚至抽取不出合适的关键词,导致最终在网页上展示的网络媒介信息与浏览该网页的受众的相关度较低,进而导致受众对该网络媒介信息的关注度较低,严重影响了网络媒介信息的投放效果,网络媒介信息的召回率和转化率(ROI)较低。所述的网络媒介信息召回率是指检索出的网络媒介信息文档数和数据库中所有的相关文档数的比率,所述的网络媒介信息转化率是指在网页上展示网络媒介信息后,受众点击该网络媒介信息的概率。
发明内容
有鉴于此,本发明的主要目的在于提供一种抽取网页相关关键词的方法和系统,以提高关键词对网页受众特征的覆盖率和相关度,提高在网页上展示的网络媒介信息与浏览该网页的用户的相关度。
本发明的技术方案是这样实现的:
一种网页相关关键词的抽取处理方法,包括:
获取指定网页的页面内容和上下文信息,所述上下文信息包括该网页的入链锚信息、和与该网页相关的用户行为信息;
在收到网页访问请求后,根据网络媒介信息投放方的关键词词典,从所访问网页的页面内容和上下文信息中抽取候选关键词;
对所抽取的各候选关键词进行权重计算,并根据权重进行排序;
从所述候选关键词中抽取权重排名前n位的关键词,所述n为指定值。
一种网页相关关键词的抽取处理系统,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310046107.5/2.html,转载请声明来源钻瓜专利网。





