[发明专利]一种垂直搜索方法和系统在审
申请号: | 202110275348.1 | 申请日: | 2021-03-15 |
公开(公告)号: | CN112989163A | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 王昀;刘征;王鑫;邵明;于之希 | 申请(专利权)人: | 中国美术学院 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/9532;G06F40/289 |
代理公司: | 杭州裕阳联合专利代理有限公司 33289 | 代理人: | 田金霞 |
地址: | 310000 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 垂直 搜索 方法 系统 | ||
本发明公开了一种垂直搜索方法和系统,其中所述方法包括如下步骤:采集搜索信息,分析采集到的搜索信息和主题的相关度;将和主题相关的搜索信息进行结构化的信息抽取;将搜索信息中的文档信息分词后建立结构化的索引;输入查询语句,计算查询语句和索引信息中文档信息的相似度;设置相似度阈值,输出大于相似度阈值的搜索信息。述搜索方法和系统采用结构化的信息抽取,过滤掉和主题信息无关的块,并根据网页结构对信息进行精确的提取,并按类存储于数据库中,从而可以提高信息提取的效率和准确性。
技术领域
本发明涉及搜索技术领域,特别涉及一种垂直搜索方法和系统。
背景技术
搜索引擎是我们日常生活中最常使用的用于从网络上获取信息的一种工具,然而通用搜索引擎多采用关键字查询的方式进行查询,其搜索结果注重数量而忽视质量,存在信息含量大、查询精确度低、查询深度不够的问题。传统的搜索引擎在具体的应用领域中存在较大的检索误差,比如在设计领域中,需要查找大量的参考资料,如:材质、品牌、功能、使用场景等。由于目前网络信息的分散化,设计师们需要在多类网站中切换查找可用资源,耗费了大量的时间与精力。
发明内容
本发明其中一个发明目的在于提供一种垂直搜索方法和系统,所述搜索方法和系统通过网络蜘蛛技术建立一个用于设计领域的垂直搜索系统,该系统可以使得设计师高效获取精准的设计资源,提高设计效率。
本发明另一个发明目的在于提供一种垂直搜索方法和系统,所述搜索方法和系统采用结构化的信息抽取,过滤掉和主题信息无关的块,并根据网页结构对信息进行精确的提取,并按类存储于数据库中,从而可以提高信息提取的效率和准确性。
本发明另一个发明目的在于提供一种垂直搜索方法和系统,所述搜索方法和系统通过Solr建立索引,可以对文档信息进行分词,建立分词词典,根据所述分词词典建立文档ID的索引列表,可以通过元数据的类别进行索引权值的控制,从而可以高效率地对指定类别的信息进行搜索。
本发明另一个发明目的在于提供一种垂直搜索方法和系统,所述搜索方法和系统通过采用链接相关度和主题相关度对网络爬取的信息进行抽取,以获取主题相关度高的网页链接和文档信息,可以减少检索噪音,提高检索的命中率。
为了实现至少一个上述发明目的,本发明进一步提供一种垂直搜索方法,所述方法包括如下步骤:
采集搜索信息,分析采集到的搜索信息和主题的相关度;
将和主题相关的搜索信息进行结构化的信息抽取;
将搜索信息中的文档信息分词后建立结构化的索引;
输入查询语句,计算查询语句和索引信息中文档信息的相似度;
设置相似度阈值,输出大于相似度阈值的搜索信息。
根据本发明其中一个较佳实施例,选定网站信息,根据选定网站信息确定主题。
根据本发明另一个较佳实施例,采集网页信息,并获取网页信息中的文档信息,计算文档信息中的词条特征值,其中所述词条特征值的计算方法包括:
获取并筛选文档信息中的和主题相关的关键词,并计算关键词词频Tf;
计算逆向文件频率Idf,其中Idf=log(文档信息库中文档总数/(包含该关键词的文档数+1));
计算网页特征值Tf-Idf,其中Tf-Idf=Tf*Idf;
设置特征值阈值,将大于特征值阈值的网页信息保存。
根据本发明另一个较佳实施例,所述搜索信息和主题相关度包括链接相关度,其中所述链接相关度获取方法包括如下步骤:
选取通用搜索引擎中和主题相关排名靠前的h张网页,根据h张网页生成根集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国美术学院,未经中国美术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110275348.1/2.html,转载请声明来源钻瓜专利网。