[发明专利]搜索引擎的性能评价方法无效
申请号: | 201110098378.6 | 申请日: | 2011-04-19 |
公开(公告)号: | CN102156746A | 公开(公告)日: | 2011-08-17 |
发明(设计)人: | 朱彤;刘奕群;马少平;张敏;金奕江;张阔;茹立云 | 申请(专利权)人: | 清华大学;北京搜狗科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 张大威 |
地址: | 100084 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 搜索引擎 性能 评价 方法 | ||
技术领域
本发明涉及通信技术领域,特别涉及一种搜索引擎的性能评价方法。
背景技术
搜索引擎是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,将处理后的信息显示给用户,是为用户提供检索服务的系统。
目前,大多数搜索引擎所提供的服务方式仍是通过关键词查询来实现的,即用户利用搜索引擎网站,提交跟自身需求相关的查询(通常为几个字、词),然后搜索引擎利用所抓取的互联网上的信息反馈给用户查询到的相关结果列表,每页网页一般有十个正常的返回结果,是一系列按照查询相关程度的大小排序的网络页面,相关程度高的资源排放在靠前的位置。
公允正确、全面客观的搜索引擎性能评价具有很强的引导作用,能够进一步提高检索服务的质量等,因此搜索引擎的性能评价一直受到广泛关注。
由于搜索引擎系统很大程度上属于网络信息检索系统的范围,因此目前基本应用传统的信息检索评价方法来评测搜索引擎的性能。在信息检索评价方法中,评测用查询集合以及对应这些查询的标准答案集合是不可或缺的两个因素。而现有的评测方法中,这两者的确定都需要耗费大量的人力劳动,而且手工标注带来的标注人员的主观影响很难避免。针对上述问题,近来提出从用户角度出发,以用户满意度来评价搜索引擎性能的思想,但是仍未提出合理的自动评价流程。
发明内容
本发明的目的旨在至少解决上述技术缺陷之一。
为达到上述目的,本发明提出一种搜索引擎的性能评价方法,包括以下步骤:A:对用户日志进行预处理,并从所述预处理后的用户日志中获取待评价的查询集合;B:针对所述查询集合,在所述用户日志中提取相应的查询分类特征;C:根据所述查询分类特征,将所述查询集合分类成导航类查询集合和信息事务类查询集合;D:获取所述分类后的查询集合的用户行为特征;以及E:根据所述用户行为特征,分别对所述导航类查询集合和信息事务类查询集合进行用户满意度确定。
在本发明的一个实施例中,所述步骤A进一步包括:进行用户日志编码转换以将服务器记录的编码格式转换成国家标准汉字编码格式;对所述转换后的用户日志进行整理以去除预定内容项之外的信息,其中所述预定内容项包括用户ID、用户提交的当前查询、用户点击的结果、用户行为内容、用户行为事件;过滤所述用户提交的当前查询中的噪声信息;以及根据用户查询频率,从所述预处理后的用户日志中自动筛选出所述查询集合。
在本发明的一个实施例中,所述查询分类特征包括:前N次点击满足用户需求率、用户点击集中度、链接信息和查询对应的URL代表。
其中,
所述查询对应的URL代表为比例占10%以上的URL。
根据本发明的一个实施例,所述步骤C进一步包括:C1:判断所述查询对应的URL代表是否只为一个且为网站类型,如果所述查询对应的URL代表只为一个且为网站类型,则判断所述查询为导航类查询,否则继续步骤C2;C2:判断所述链接信息是否不大于第一链接信息值,如果所述链接信息不大于所述第一链接信息值,则继续步骤C3,如果所述链接信息大于所述第一链接信息值,则继续步骤C5;C3:判断所述用户点击集中度是否不大于第一集中度值,如果所述用户点击集中度不大于所述第一集中度值,则判断所述查询为信息事务类查询,如果所述用户点击集中度大于所述第一集中度值,则继续步骤C4;C4:判断所述链接信息是否不大于第二链接信息值,如果所述链接信息不大于所述第二链接信息值,则判断所述查询为信息事务类查询,如果所述链接信息大于所述第二链接信息值,则判断所述查询为导航类查询;C5:判断所述用户点击集中度是否大于第二集中度值,如果所述用户点击集中度大于所述第二集中度值,则判断所述查询为导航类查询,如果所述用户点击集中度不大于所述第二集中度值,则继续步骤C6;C6:判断所述前N次点击满足用户需求率是否大于预定需求率值,如果所述前N次点击满足用户需求率不大于所述预定需求率值,则判断所述查询为信息事务类查询,如果所述前N次点击满足用户需求率大于所述预定需求率值,则继续步骤C7;以及C7:判断所述链接信息是否大于第三链接信息值,如果所述链接信息大于所述第三链接信息值,则判断所述查询为导航类查询,如果所述链接信息不大于所述第三链接信息值,则判断所述查询为信息事务类查询。
在本发明的一个实施例中,所述用户行为特征包括:平均第一次点击信息、点击查询推荐的比例、平均最后一次点击信息、平均点击次数、平均日志条数和点击重新搜索的比例。
其中,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学;北京搜狗科技发展有限公司,未经清华大学;北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110098378.6/2.html,转载请声明来源钻瓜专利网。