[发明专利]搜索引擎的数据处理方法及装置在审
申请号: | 201310659121.2 | 申请日: | 2013-12-06 |
公开(公告)号: | CN103646070A | 公开(公告)日: | 2014-03-19 |
发明(设计)人: | 王学蕾 | 申请(专利权)人: | 北京趣拿软件科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 吴贵明;张永明 |
地址: | 100080 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 搜索引擎 数据处理 方法 装置 | ||
技术领域
本发明涉及计算机搜索引擎领域,具体而言,涉及一种搜索引擎的数据处理方法及装置。
背景技术
现有技术提供的搜索引擎需要用户输入搜索词,搜索引擎在获取搜索词之后,会根据搜索词和文档相关度得到文档排序。该搜索引擎的排序必须基于用户的输入搜索词来进行搜索,当用户没有明确目标时是不能精确的给出搜索词的,此时系统无法生成排序列表。
在上述搜索词不明确,或者没有匹配文档的情况下,可以通过人工编目的排行榜来获取搜索结果,具体的,可以通过人工在后台设置文档的线上排序。这种人工编目的排行榜需要人工维护线上排序,耗时耗力,且人工维护搜索结果具有个人因素在里边,搜索结果不准确,且当搜索对象的数目达到一定程度,人工无法维护。
目前针对相关技术的在搜索引擎无法获知搜索词时,通过人工维护后台导致搜索效率低、搜索结果不准确的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术的在搜索引擎无法获知搜索词时,通过人工维护后台导致搜索效率低、搜索结果不准确的问题,目前尚未提出有效的解决方案,为此,本发明的主要目的在于提供一种搜索引擎的数据处理方法及装置,以解决上述问题。
为了实现上述目的,根据本发明的一个方面,提供了一种搜索引擎的数据处理方法,该方法包括:获取历史用户使用搜索引擎的日志记录,其中,日志记录包括:用户行为数据、搜索对象属性数据以及搜索结果的特征数据;根据用户行为数据和搜索对象属性数据进行线性回归计算,生成用户的搜索偏好值;将用户的搜索偏好值与每个搜索结果的特征数据进行匹配处理,得到用户的搜索偏好与所有搜索结果的匹配度;提取所有搜索结果的匹配度中满足预定条件匹配度,获取历史用户的搜索结果。
为了实现上述目的,根据本发明的另一方面,提供了一种搜索引擎的数据处理装置,该装置包括:获取模块,用于获取历史用户使用搜索引擎的日志记录,其中,日志记录包括:用户行为数据、搜索对象属性数据以及搜索结果的特征数据;处理模块,用于根据用户行为数据和搜索对象属性数据进行线性回归计算,生成用户的搜索偏好值;匹配模块,用于将用户的搜索偏好值与每个搜索结果的特征数据进行匹配处理,得到用户的搜索偏好与所有搜索结果的匹配度;提取模块,用于提取所有搜索结果的匹配度中满足预定条件匹配度,获取历史用户的搜索结果。
通过本发明,采用获取历史用户使用搜索引擎的日志记录,其中,日志记录包括:用户行为数据、搜索对象属性数据以及搜索结果的特征数据;根据用户行为数据和搜索对象属性数据进行线性回归计算,生成用户的搜索偏好值;将用户的搜索偏好值与每个搜索结果的特征数据进行匹配处理,得到用户的搜索偏好与所有搜索结果的匹配度;提取所有搜索结果的匹配度中满足预定条件匹配度,获取历史用户的搜索结果,解决了相关现有技术的在搜索引擎无法获知搜索词时,通过人工维护后台导致搜索效率低、搜索结果不准确的问题,进而实现提高搜索引擎的搜索效率,提高搜索结果准确度的效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的搜索引擎的数据处理方法的流程示意图;
图2是根据本发明实施例的搜索引擎的数据处理方法的详细流程示意图;
图3是根据本发明实施例的搜索引擎的数据处理装置的结构示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
本申请利用机器学习和数据挖掘技术来实现,在无法获取当前登录用户的搜索目标时,也可以直接在搜索引擎中显示搜索结果。
本申请涉及到的机器学习(Machine Learning)是本申请的核心技术,是指研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,机器学习主要使用归纳、综合而不是演绎。
数据挖掘Data Mining是一种透过数理模式来分析企业内储存的大量资料,以找出不同的客户或市场划分,分析出消费者喜好和行为的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京趣拿软件科技有限公司,未经北京趣拿软件科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310659121.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:芯片故障定位方法、装置及系统
- 下一篇:一种半导体P、N类型非接触测试传感器