[发明专利]基于膜计算的搜索方法在审
| 申请号: | 201410026335.0 | 申请日: | 2014-01-20 |
| 公开(公告)号: | CN103955460A | 公开(公告)日: | 2014-07-30 |
| 发明(设计)人: | 杜亚军;刘文君;孟庆瑞;李曦;王晓明 | 申请(专利权)人: | 西华大学;西藏飞跃智能科技有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 深圳市科吉华烽知识产权事务所(普通合伙) 44248 | 代理人: | 胡吉科 |
| 地址: | 610000 四川*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 计算 搜索 方法 | ||
本发明涉及网络搜索领域,其公开了一种基于膜计算的搜索方法,包括以下步骤:(A)获取最优加权因子;(B)获取文档主题相似度;(C)预测排序优先值。本发明的有益效果是:能够提高预测未访问URLs主题相似度的准确率,进一步提高主题爬虫的查全率和准确率,从而指导主题爬虫从互联网中采集的更多数量、更好质量的网页集,更有效地收集用户感兴趣的网页集。
技术领域
本发明涉及网络搜索领域,尤其涉及一种基于膜计算的搜索方法。
背景技术
大多数主题爬行方法都是基于文本内容方法,在这些主题爬虫中比较典型的主题爬虫包括VSM主题爬虫和SSRM主题爬虫,VSM主题爬虫将未访问URLs的网页全文本和链接锚文本的两个文档的主题相关度与相应的两个加权因子整合为它们的优先值,并利用向量空间模型(Vector Space Model VSM)计算文档与主题的相似度;S.Chakrabarti,M.V.D.Berg,B.Dom,Focused crawling:a new approach for topic specific resourcediscovery,Computer Networks,1999,31:1623-1640.SSRM主题爬虫也将未访问URLs的网页全文本和链接锚文本的两个文档的主题相关度与相应的两个加权因子整合为它们的优先值,并利用语义相似度检索模型(Semantic Similarity Retrieval Model SSRM)计算文档与主题的相似度;G.Varelas,E.Voutsakis,et al,Semantic similarity methods inwordnet and their application to information retrieval on the web,Seventh ACMInternational Workshop on Web Information and Data Management,Bremen Germany,2005.此两个主题爬虫的两个加权因子都被指定为0.5。此外,在优化参数或加权因子中,与遗传算法相比,CMCOA能获得更好的最优值和具有更快的收敛性。L.Huang,Research onmembrane computing optimization methods,Zhejiang University,Hangzhou,2007.
上述两个典型主题爬虫能够检索用户感兴趣的网页,但是它们仍然存在诸多问题:(1)未访问URLs优先值计算考虑因素不完善,此优先值可能受链接上下文段落、网页标题等相关因素影响;(2)文档和主题的相似度计算模型存在瑕疵,VSM模型未考虑到语义相似度,而SSRM模型未考虑到余弦相似度;(3)未访问URLs优先值算式的加权因子确定带有随意性,这些加权因子都是通过任意指定的。
发明内容
为了解决现有技术中的问题,本发明提供了一种基于膜计算的搜索方法,解决现有技术中在网络主体爬行中未访问URLs优先值计算考虑因素不完善和文档和主题的相似度计算模型存在瑕疵的问题。
本发明提供了一种基于膜计算的搜索方法,包括以下步骤:(A)获取最优加权因子;(B)获取文档主题相似度;(C)预测排序优先值。
作为本发明的进一步改进,所述步骤(A)进一步包括,获取训练数据;表层膜、中间膜和基本膜产生初始对象并设置相关参数;表层膜、中间膜和基本膜应用进化规则;表层膜、中间膜和基本膜应用交流规则;表层膜输出最好对象。
作为本发明的进一步改进,所述步骤(B)进一步包括,获取四个不同文档;计算四个文档的主题相似度;四个不同文档分别为网页全文本、链接锚文本、链接上下文和网页标题文档。
作为本发明的进一步改进,所述步骤(C)进一步包括:预测未访问URLs的排序优先值;遍历未访问URLs并下载相应的网页集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西华大学;西藏飞跃智能科技有限公司,未经西华大学;西藏飞跃智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410026335.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种降低血尿酸水平的药物组合物及其应用
- 下一篇:汽车电镀字牌附胶工装





