[发明专利]一种网站的搜索方法和装置在审
申请号: | 201310298439.2 | 申请日: | 2013-07-16 |
公开(公告)号: | CN103425742A | 公开(公告)日: | 2013-12-04 |
发明(设计)人: | 乔亚飞;田文奇;胡绍武;孟凡兴;游世学;赵丽娜 | 申请(专利权)人: | 北京中科汇联信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 100083 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网站 搜索 方法 装置 | ||
1.一种网站的搜索方法,其特征在于,包括:
收集数据源,并提取数据源中的官方词语;
收集用户在所述网站的搜索关键词,并抓取所述搜索关键词搜索得到的网页;
根据搜索关键词和网页中的关键词的相似度,查询出与搜索关键词相似的网页中的关键词,并将所述网页中的关键词和所述搜索关键词作为白话词;
建立白话词与官方词语的对应关系,并依据所述对应关系生成百姓体词库;
接收用户输入的白话词,查询所述百姓体词库,获取与所述用户输入的白话词相匹配的官方词语,并依据所获取的官方词语搜索网站。
2.根据权利要求1所述的方法,其特征在于,所述建立白话词与官方词语的对应关系,包括:
抽取出通过白话词查询网站的网页内容,对查询的网页内容进行分词处理,查询分词后词元对应的官方词语,如果查询成功,则建立所述白话词与官方词语的对应关系;
所述依据所述对应关系生成百姓体词库,包括:根据语义分析和概率统计对所述白话词与官方词语的对应关系进行筛选,筛选后生成百姓体词库。
3.根据权利要求1所述的方法,其特征在于,所述提取数据源中的官方词语,包括:
从数据源中提取数据信息;
判断所述数据信息中是否含有表示官方词语的标签,若含有,则直接提取所述标签;
若不含有,则对所述数据信息进行分析得出对应的官方词语。
4.根据权利要求1所述的方法,其特征在于,所述抓取所述搜索关键词搜索得到的网页之前,还包括:
依据用户在所述搜索关键词搜索得到的网页的驻留时间对所述网页排序;
所述抓取所述搜索关键词搜索得到的网页包括:抓取所述搜索关键词搜索得到的排序后的部分网页。
5.根据权利要求1所述的方法,其特征在于,所述查询所述百姓体词库,获取与所述用户输入的白话词相匹配的官方词语,包括:
对用户输入的白话词进行分词,拆分成词元;
在所述百姓体词库中查询所述词元对应的官方词语;
将词元对应的官方词语合并成与所述用户输入的白话词相匹配的官方词语。
6.一种网站的搜索装置,其特征在于,包括:
收集官方词语模块,用于收集数据源,并提取数据源中的官方词语;
收集白话词模块,包括:
收集子模块,用于收集用户在所述网站的搜索关键词;
抓取子模块,用于抓取通过所述搜索关键词搜索得到的网页;
生成白话词子模块,用于根据搜索关键词和网页中的关键词的相似度,查询出与搜索关键词相似的网页中的关键词,并将所述网页中的关键词和所述搜索关键词作为白话词;
生成百姓体词库模块,用于建立白话词与官方词语的对应关系,并依据所述对应关系生成百姓体词库;
搜索模块,用于接收用户输入的白话词,查询所述百姓体词库,获取与所述用户输入的白话词相匹配的官方词语,并依据所获取的官方词语搜索网站。
7.根据权利要求6所述的装置,其特征在于,所述生成百姓体词库模块包括:
对应关系建立子模块,用于抽取出通过白话词查询网站的网页内容,对查询的网页内容进行分词处理,查询分词后词元对应的官方词语,如果查询成功,则建立所述白话词与官方词语的对应关系;
筛选子模块,用于根据语义分析和概率统计对所述白话词与官方词语的对应关系进行筛选,筛选后生成百姓体词库。
8.根据权利要求6所述的装置,其特征在于,所述收集官方词语模块包括:
提取子模块,用于收集数据源,并从数据源中提取数据信息;
判断子模块,用于判断所述数据信息中是否含有表示官方词语的标签,若含有,则直接提取所述标签;若不含有,则对所述数据信息进行分析得出对应的官方词语。
9.根据权利要求6所述的装置,其特征在于,所述收集白话词模块,还包括:
排序子模块,用于依据用户在所述搜索关键词搜索得到的网页的驻留时间对所述网页排序;
所述抓取子模块,用于抓取所述搜索关键词搜索得到的排序后的部分网页。
10.根据权利要求6所述的装置,其特征在于,所述搜索模块包括:
分词子模块,用于接收用户输入的白话词,对用户输入的白话词进行分词,拆分成词元;
查询官方词语子模块,用于在所述百姓体词库中查询所述词元对应的官方词语;
生成官方词语子模块,用于将词元对应的官方词语合并成与所述用户输入的白话词相匹配的官方词语。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科汇联信息技术有限公司,未经北京中科汇联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310298439.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种HDFS中数据块的副本管理策略
- 下一篇:面向网络的重叠社区发现方法