[发明专利]一种网站的搜索方法和装置在审
申请号: | 201310298439.2 | 申请日: | 2013-07-16 |
公开(公告)号: | CN103425742A | 公开(公告)日: | 2013-12-04 |
发明(设计)人: | 乔亚飞;田文奇;胡绍武;孟凡兴;游世学;赵丽娜 | 申请(专利权)人: | 北京中科汇联信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 100083 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网站 搜索 方法 装置 | ||
技术领域
本申请涉及网站技术,特别是涉及一种网站的搜索方法和装置。
背景技术
我国的政府网站普遍经过了“政府名片”、“新闻网站阶段”、“信息公开、在线服务、政民互动”三大定位阶段,在当前阶段每个综合性政府网站都积累了丰富的便民信息和服务,但这种“信息过载”却给网站用户查找信息带来了很大困扰。
目前政府门户网站信息更新速度快,信息量非常大,用户在查找信息时,最近发布的很多信息查询不到,搜索结果仍停留在至少半年以前。
有些政府门户网站检索结果非常多,但是很多检索结果和搜索关键词没有关联,或者通过标题根本看不出搜索关键词和检索结果之间的必然关系,带给用户的体验是搜索结果不准确。
很多用户在政府门户网站查找信息时,最关注的是跟办事指南、答疑解惑等政府服务相关的内容,如教育、医疗、社保、住房、交通等与百姓生活密切相关的问题,但是搜索结果却往往大失所望。排在最前面的通常都是和新闻动态类相关的信息,而服务类的信息往往排在最后或者根本无法搜索到结果。
因此,目前政府门户网站领域存在的主要问题有搜索结果查询不全、搜索结果查询不准确、搜索结果不实用。
发明内容
本申请提供了一种网站的搜索方法和装置,以解决目前搜索结果查询不全或不准确、搜索结果不实用的问题。
为了解决上述问题,本申请公开了一种网站的搜索方法,包括:
收集数据源,并提取数据源中的官方词语;
收集用户在所述网站的搜索关键词,并抓取所述搜索关键词搜索得到的网页;
根据搜索关键词和网页中的关键词的相似度,查询出与搜索关键词相似的网页中的关键词,并将所述网页中的关键词和所述搜索关键词作为白话词;
建立白话词与官方词语的对应关系,并依据所述对应关系生成百姓体词库;
接收用户输入的白话词,查询所述百姓体词库,获取与所述用户输入的白话词相匹配的官方词语,并依据所获取的官方词语搜索网站。
优选的,所述建立白话词与官方词语的对应关系,包括:
抽取出通过白话词查询网站的网页内容,对查询的网页内容进行分词处理,查询分词后词元对应的官方词语,如果查询成功,则建立所述白话词与官方词语的对应关系;
所述依据所述对应关系生成百姓体词库,包括:根据语义分析和概率统计对所述白话词与官方词语的对应关系进行筛选,筛选后生成百姓体词库。
优选的,所述提取数据源中的官方词语,包括:
从数据源中提取数据信息;
判断所述数据信息中是否含有表示官方词语的标签,若含有,则直接提取所述标签;
若不含有,则对所述数据信息进行分析得出对应的官方词语。
优选的,所述抓取所述搜索关键词搜索得到的网页之前,还包括:
依据用户在所述搜索关键词搜索得到的网页的驻留时间对所述网页排序;
所述抓取所述搜索关键词搜索得到的网页包括:抓取所述搜索关键词搜索得到的排序后的部分网页。
优选的,所述查询所述百姓体词库,获取与所述用户输入的白话词相匹配的官方词语,包括:
对用户输入的白话词进行分词,拆分成词元;
在所述百姓体词库中查询所述词元对应的官方词语;
将词元对应的官方词语合并成与所述用户输入的白话词相匹配的官方词语。
为了解决上述问题,本申请公开了一种网站的搜索装置,包括:
收集官方词语模块,用于收集数据源,并提取数据源中的官方词语;
收集白话词模块,包括:
收集子模块,用于收集用户在所述网站的搜索关键词;
抓取子模块,用于抓取通过所述搜索关键词搜索得到的网页;
生成白话词子模块,用于根据搜索关键词和网页中的关键词的相似度,查询出与搜索关键词相似的网页中的关键词,并将所述网页中的关键词和所述搜索关键词作为白话词;
生成百姓体词库模块,用于建立白话词与官方词语的对应关系,并依据所述对应关系生成百姓体词库;
搜索模块,用于接收用户输入的白话词,查询所述百姓体词库,获取与所述用户输入的白话词相匹配的官方词语,并依据所获取的官方词语搜索网站。
优选的,所述生成百姓体词库模块包括:
对应关系建立子模块,用于抽取出通过白话词查询网站的网页内容,对查询的网页内容进行分词处理,查询分词后词元对应的官方词语,如果查询成功,则建立所述白话词与官方词语的对应关系;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科汇联信息技术有限公司,未经北京中科汇联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310298439.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种HDFS中数据块的副本管理策略
- 下一篇:面向网络的重叠社区发现方法