[发明专利]互联网站内信息的搜索方法和搜索系统在审
| 申请号: | 201110260130.5 | 申请日: | 2011-09-05 |
| 公开(公告)号: | CN102982034A | 公开(公告)日: | 2013-03-20 |
| 发明(设计)人: | 胡文翠;张耀杰 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 谢安昆;宋志强 |
| 地址: | 518044 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 互联网 站内 信息 搜索 方法 系统 | ||
技术领域
本发明涉及互联网信息处理技术领域,尤其涉及一种互联网站内信息的搜索方法和搜索系统。
背景技术
目前,互联网站点的搭建方式主要有两种,一种是自行编写代码搭建站点;另一种是利用成形的互联网站点系统搭建站点。例如,互联网社区软件系统就是一种成形的互联网站点系统,互联网社区站点的拥有者不需要自行开发一套社区软件系统,而是直接安装标准化、产品化的社区软件系统,然后配置自己的社区配置信息,即可搭建一个互联网社区站点,网友可以利用各种数据处理设备(如计算机、智能手机、平板电脑等)连接登录该互联网社区站点查看或发布信息,并与其它网友进行交流互动。
目前比较流行的互联网社区软件系统主要有Discuz!社区软件系统,已经有超过140万家互联网社区站点使用Discuz!社区软件系统进行搭建,这些互联网社区站点提供的数据量已超过50亿。面对如此大巨量的数据,互联网社区站点迫切需要提供高效的站内搜索服务。
现有技术中,互联网站点(包括互联网社区软件系统)的站内搜索技术主要有两种:
现有技术一:通过数据库自带的文本检索实现搜索功能。例如Discuz!社区软件系统的基础架构采用的是PHP语言+MySQL数据库这种比较流行的网络编程组合实现,因此其社区站内搜索功能主要是通过MySQL数据库自带的文本检索实现。
现有技术一的缺点是:由于数据库安装在互联网站点的本地服务器上,执行搜索操作需要占用本地各种资源,因此总体效率不高、服务性能低,且磁盘空间的占用量大、带宽消耗大、数据更新速度慢,索引膨胀快,难以稳定支撑大规模数据量的查询服务。而且,MySQL数据库检索只能实现对帖子标题的搜索,且是完全匹配,搜索结果只能按时间排序,无法按结果质量和相关性排序。
现有技术二:通过外部专有的网络搜索引擎提供对应的搜索服务。目前的专有搜索引擎通常采用网页抓取程序顺着网页中的超链接抓取网页信息,然后提取网页信息中的关键数据并建立索引,当某个互联网社区站点发出搜索请求后,该搜索请求会发送给外部搜索引擎,外部搜索引擎会从具有该社区站点信息的索引中搜索出搜索结果,返回给该社区站点进行展示。
现有技术二的缺点是:外部搜索引擎目前都是基于全网网页抓取方式抓取网页信息再建索引,因此针对某一社区站点内的信息,所抓取的信息量不大、也比较粗略,而且信息时效性较差,比较迟后,因此通过这种方式进行的互联网社区站内搜索的精确度不高,时效性差。
发明内容
有鉴于此,本发明提供一种互联网站内信息的搜索方法和搜索系统,以提高站内信息搜索的搜索效率、精确度以及时效性。
本发明的技术方案是这样实现的:
一种互联网站内信息的搜索方法,该方法包括:
搜索引擎获取互联网站点的数据,根据获取的数据建立索引并存入索引数据库;
搜索引擎接收来自互联网站点的搜索请求,根据收到的搜索请求从索引数据库中检索出对应的搜索结果,并将搜索结果返回给所述互联网站点进行展示。优选的,所述搜索引擎获取互联网站点更新的数据的具体方式为:
在所述搜索引擎收到所述互联网站点更新数据主动通知后,所述搜索引擎从所述互联网站点指定存放全量数据及实时更新数据列表地址处获取所述互联网站点的站内更新数据;
或者,所述搜索引擎定期从所述互联网站点指定存放全量数据及实时更新数据列表地址处获取所述互联网站点的站内更新数据。
优选的,所述搜索引擎在同步得到互联网站点的数据之后、建立索引之前,进一步对同步得到的数据进行过滤,过滤掉不符合指定条件的数据,之后只对过滤后的数据建立索引并存入索引数据库。
优选的,该方法进一步在搜索引擎中存储检索权限信息;所述来自互联网站点的搜索请求中进一步包括用户信息;所述搜索引擎收到搜索请求后,进一步根据用户信息和存储的检索权限信息识别该用户的检索权限,从索引数据库中符合该用户权限范围的内容里检索出搜索结果,并将该搜索结果返回给所述互联网站点进行展示。
优选的,所述用户信息为用户的登录信息或用户的来源信息。
优选的,所述搜索引擎进一步从互联网站点同步本站内更新的用户权限信息。
优选的,所述来自互联网站点的搜索请求中进一步包括用户信息;所述搜索引擎在检索出对应的搜索结果之后、返回给所述互联网站点之前,进一步根据搜索请求中提供的用户信息对该搜索结果进行排序,将排序后的搜索结果返回给互联网站点进行展示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110260130.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种轮胎模具夹台
- 下一篇:一种模拟春夏秋冬自然发酵生产高盐稀态酱油的方法
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





