[发明专利]网页主题词获取方法和系统、服务器与用户终端有效
申请号: | 201710980860.X | 申请日: | 2017-10-20 |
公开(公告)号: | CN110147478B | 公开(公告)日: | 2021-06-29 |
发明(设计)人: | 赵钧;黄磊;邱晨旭 | 申请(专利权)人: | 中国电信股份有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/957 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 王云飞 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 主题词 获取 方法 系统 服务器 用户 终端 | ||
1.一种网页主题词获取方法,其特征在于,包括:
响应于用户终端发起的网页头信息获取请求,获取网页内容;
根据网页内容获取k个主题词,其中,k为大于1的自然数;
将所述k个主题词写入网页头信息中;
将网页头信息返回给用户终端,以便用户终端从网页头信息中读取所述k个主题词,并向用户显示所述k个主题词;
其中,所述根据网页内容获取k个主题词包括:
对网页内容进行处理获取网页正文;
对网页正文进行处理生成主题词全集,其中所述主题词全集包括n个主题词;
从所述主题词全集中确定目标主题词子集,其中所述目标主题词子集包括k个主题词;
其中,所述从所述主题词全集中确定主题词子集包括:
若所述主题词全集与数据库中该网页对应的主题词集一致,则判定所述网页没有更新,判断主题词获取次数是否大于预定次数;
若主题词获取次数大于预定次数,则选择全文获取次数最多的主题词子集作为目标主题词子集,其中,所述全文获取次数为用户终端针对一个网页获取主题词后的全文浏览次数。
2.根据权利要求1所述的方法,其特征在于,还包括:
响应于用户终端发起的网页头信息获取请求,从所述网页头信息获取请求中获取主题词开关参数;
根据主题词开关参数判断是否开启主题词生成功能;
在判定开启主题词生成功能的情况下,执行获取网页内容的步骤。
3.根据权利要求1或2所述的方法,其特征在于,所述从所述主题词全集中确定主题词子集还包括:
比对所述主题词全集与数据库中该网页对应的主题词集是否一致;
若所述主题词全集与数据库中该网页对应的主题词集不一致,则判定所述网页为新网页或所述网页有更新,随机选择k个主题词作为目标主题词子集。
4.根据权利要求1或2所述的方法,其特征在于,所述从所述主题词全集中确定主题词子集还包括:
若主题词获取次数不大于预定次数,则随机选择k个主题词作为目标主题词子集。
5.根据权利要求1或2所述的方法,其特征在于,还包括:
存储用户终端针对一个网页的主题词获取次数,建立网页地址与主题词获取次数的对应关系;
和/或,
存储用户终端针对一个网页获取主题词后的全文获取次数,建立网页地址与全文获取次数的对应关系。
6.一种网页主题词获取方法,其特征在于,包括:
向服务器发起网页头信息获取请求,以便服务器获取网页内容,对网页内容进行处理获取网页正文,对网页正文进行处理生成主题词全集,其中所述主题词全集包括n个主题词,从所述主题词全集中确定目标主题词子集,其中所述目标主题词子集包括k个主题词,其中,k为大于1的自然数,并将所述k个主题词写入网页头信息中,所述从所述主题词全集中确定主题词子集包括:若所述主题词全集与数据库中该网页对应的主题词集一致,则判定所述网页没有更新,判断主题词获取次数是否大于预定次数;若主题词获取次数大于预定次数,则选择全文获取次数最多的主题词子集作为目标主题词子集,其中,所述全文获取次数为用户终端针对一个网页获取主题词后的全文浏览次数;
接收服务器返回的网页头信息;
从网页头信息中读取所述k个主题词;
向用户显示所述k个主题词。
7.根据权利要求6所述的方法,其特征在于,
所述网页头信息获取请求中包括主题词开关参数,其中,所述主题词开关参数用于指示服务器是否开启主题词生成功能。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电信股份有限公司,未经中国电信股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710980860.X/1.html,转载请声明来源钻瓜专利网。