[发明专利]生成网页的方法和装置在审
申请号: | 201611168916.3 | 申请日: | 2016-12-16 |
公开(公告)号: | CN108205532A | 公开(公告)日: | 2018-06-26 |
发明(设计)人: | 秦首科;陈志扬;张泽明;韩聪;姚欣洪;慎涵;王楠 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标信息 内容单元 浏览 方法和装置 集合 网页 相关度 新网页 抓取 内容项集合 获取信息 顺序生成 网页内容 信息呈现 页面内容 重新生成 申请 | ||
1.一种生成网页的方法,其特征在于,所述方法包括:
获取用户的浏览目标信息;
对根据所述浏览目标信息所抓取的网页的页面内容进行识别,以得到至少一个内容单元集合,其中,每个所述内容项集合包括至少一个内容单元;
计算所述浏览目标信息与各个内容单元集合所包含的内容的第一相关度;
基于所述内容单元集合,按照所述第一相关度由高到低的排列顺序生成新网页。
2.根据权利要求1所述的方法,其特征在于,所述获取用户的浏览目标信息包括:
获取用户的个性化信息,所述个性化信息包括以下至少一种:历史搜索记录、当前的搜索关键词、历史浏览记录、年龄、性别、职业;
根据所述个性化信息生成所述浏览目标信息。
3.根据权利要求1所述的方法,其特征在于,所述计算所述浏览目标信息与各个内容单元集合所包含的内容的第一相关度包括:
对各个内容单元集合提取集合关键词;
将所述浏览目标信息与各个内容单元集合的所述集合关键词进行匹配;
根据匹配结果确定各个所述第一相关度。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
针对每个内容单元集合,
计算所述浏览目标信息与该内容单元集合中的各个内容单元的第二相关度;
将该内容单元集合内的内容单元,按照所述第二相关度由高到低进行排列。
5.根据权利要求4所述的方法,其特征在于,所述计算所述浏览目标信息与该内容单元集合中的各个内容单元的第二相关度包括:
提取各个内容单元的单元关键词;
将所述浏览目标信息与所述单元关键词进行匹配;
根据匹配结果确定所述浏览目标信息与各个内容单元的第二相关度。
6.根据权利要求1所述的方法,其特征在于,所生成的新网页包括:
用于显示所述内容单元集合的第一页面和用于显示每个内容单元集合中的内容单元的第二页面。
7.根据权利要求6所述的方法,其特征在于,所生成的新网页还包括:
用于显示所述第二页面中各内容单元的内容详情的第三页面。
8.根据权利要求1-7中任一所述的方法,其特征在于,所述页面内容包括以下至少一种:页面中的导航结构、导航标签、所述导航标签所链接页面的页面内容。
9.一种生成网页的装置,其特征在于,所述装置包括:
获取模块,配置用于获取用户的浏览目标信息;
识别模块,配置用于对根据所述浏览目标信息所抓取的网页的页面内容进行识别,以得到至少一个内容单元集合,其中,每个所述内容项集合包括至少一个内容单元;
第一计算模块,配置用于计算所述浏览目标信息与各个内容单元集合所包含的内容的第一相关度;
生成模块,配置用于基于所述内容单元集合,按照所述第一相关度由高到低的排列顺序生成新网页。
10.根据权利要求9所述的装置,其特征在于,所述获取模块包括:
获取单元,配置用于获取用户的个性化信息,所述个性化信息包括以下至少一种:历史搜索记录、当前的搜索关键词、历史浏览记录、年龄、性别、职业;
生成单元,配置用于根据所述个性化信息生成所述浏览目标信息。
11.根据权利要求9所述的装置,其特征在于,所述第一计算模块包括:
第一提取单元,配置用于对各个内容单元集合提取集合关键词;
第一匹配单元,配置用于将所述浏览目标信息与各个内容单元集合的所述集合关键词进行匹配;
第一确定单元,配置用于根据匹配结果确定各个所述第一相关度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611168916.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:数据抽取方法和数据抽取系统
- 下一篇:一种基于用户协同的歌曲推荐方法和系统