[发明专利]一种提供聚合类型的智能摘要的方法和装置在审
申请号: | 201510976108.9 | 申请日: | 2015-12-22 |
公开(公告)号: | CN105574185A | 公开(公告)日: | 2016-05-11 |
发明(设计)人: | 郑思晴;吴凯 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京天达知识产权代理事务所(普通合伙) 11386 | 代理人: | 左萌;马东伟 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 提供 聚合 类型 智能 摘要 方法 装置 | ||
技术领域
本发明涉及互联网技术领域,尤其涉及一种提供聚合类型的智能 摘要的方法和装置。
背景技术
随着互联网技术的不断发展,用户对于互联网信息的需求越来越 高,搜索引擎成为用户获取互联网信息的重要工具。用户在搜索引擎 对应应用中的搜索框中,输入查询词,即搜索关键词,由应用将搜索 关键词发送给搜索引擎;而搜索引擎根据搜索关键词,在数据库中进 行搜索,以获得与搜索关键词匹配的资源,以作为若干个搜索结果项, 返回给应用进行输出。
现有技术中,搜索结果项一般包括标题、页面URL以及摘要,其 中,摘要为对搜索结果项对应页面的概括性描述。当用户使用搜索引 擎进行搜索时,如果输入的查询词为泛词类型,即存在对应于查询词 的多个页面内容,而非某一精确页面结果。该搜索结果项的普通摘要 信息包括对搜索结果项指向落地页的概括性文字说明或缩略图。现有 技术的缺点在于:
1)用户需要点击搜索结果项并进入相应落地页,随后从落地页中 再去寻找其所需要的内容,即用户从开始执行搜索行为到最终查找到 其想要的内容至少需要执行两个步骤,查询路径偏长;因此导致用户 操作不便且耗时较长,体验不佳;
2)普通搜索结果项的摘要通常为概括性文字说明,一般无法直接 向用户提供对搜索结果项对应页面具体内容的决策性意见。
3)会增加应用与搜索引擎之间的数据交互,从而增加了搜索引擎 的处理负担。
发明内容
为了解决现有技术中的上述问题,本发明提出了一种提供聚合类 型的智能摘要的方法和装置。
根据本发明的一个方面,提供了一种提供聚合类型的智能摘要的 方法,包括:
对群体用户历史查询词进行聚类,对聚类后的历史查询词的搜索 结果项对应链接的落地页进行结构化数据模板处理;
获取与用户查询词对应的搜索结果项;
检测所述与用户查询词对应的搜索结果项对应链接的落地页是否 为包含平级图文列表字段且进行过结构化数据模板处理的站点;
如果是,则提取所述站点中图文列表字段中的图片信息及标题信 息作为摘要信息,重新生成包含所述摘要信息的搜索结果项。
进一步的,所述对群体用户历史查询词进行聚类,对聚类后的历 史查询词的搜索结果项对应链接的落地页进行结构化数据模板处理包 括:
根据对多个历史查询词基于热度信息进行排序的排序结果,选取 排序靠前的预定数量的查询词进行聚合,得到聚合后的热门历史查询 词;
根据所述聚合后的热门历史查询词来确定相应的经排序的搜索结 果项,并选取与每一聚合后的查询词相应的排序靠前的预定数量的搜 索结果项作为热门搜索结果项;
提取所述热门搜索结果项对应链接的热门落地页;
检测所述热门搜索结果项对应链接的热门落地页中是否包含平级 图文列表字段;
如果是,则对所述热门搜索结果项对应链接的热门落地页进行结 构化数据模板处理。
进一步的,所述对所述热门搜索结果项对应链接的热门落地页进 行结构化数据模板处理,包括:
首先生成与所述热门搜索结果项相匹配的列表摘要模板,然后根 据所述列表摘要模板对所述搜索结果项进行结构化数据模板处理。
进一步的,所述根据所述列表摘要模板对所述搜索结果项进行结 构化数据模板处理,包括:
提取所述热门搜索结果项对应链接的热门落地页的平级图文列表 字段的数据信息;
基于所述平级图文列表字段的数据信息,填充所述列表摘要模板, 从而重新生成包含列表摘要信息的搜索结果项。
进一步的,所述提取所述站点中图文列表字段中的图片信息及标题 信息作为摘要信息,包括:
从所述重新生成的包含列表摘要信息的搜索结果项中提取与图片 信息及标题信息相关联记录的标记语言字段作为摘要信息,重新生成 包含所述摘要信息的搜索结果项。
进一步的,所述平级图文列表字段包括以下一种或多种的组合:
列表类型标记语言字段;
统一资源定位符、标题信息相关联记录的多个标记语言字段;
统一资源定位符、标题信息及图片信息相关联记录的多个标记语 言字段。
根据本发明的另一方面,提供了一种提供聚合类型的智能摘要的 装置,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510976108.9/2.html,转载请声明来源钻瓜专利网。