[发明专利]基于膜计算的搜索方法在审

专利信息
申请号: 201410026335.0 申请日: 2014-01-20
公开(公告)号: CN103955460A 公开(公告)日: 2014-07-30
发明(设计)人: 杜亚军;刘文君;孟庆瑞;李曦;王晓明 申请(专利权)人: 西华大学;西藏飞跃智能科技有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 深圳市科吉华烽知识产权事务所(普通合伙) 44248 代理人: 胡吉科
地址: 610000 四川*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 计算 搜索 方法
【权利要求书】:

1.一种基于膜计算的搜索方法,其特征在于:包括以下步骤:(A)获取最优加权因子;(B)获取文档主题相似度;(C)预测排序优先值;所述步骤(B)中,在语义空间中构建网页语义向量和主题语义向量,再将两语义向量的余弦值作为网页与主题的相似度,其具体采用如下步骤:(1)设定词项空间TSpace是基本词项的集合,其定义为:

TSpace={termi|termi∈Lex,1≤i≤|Lex|}

式中TSpace为词项空间,Lex为基本词汇库集合,termi为Lex中的词项,|Lex|为基本词汇库集合Lex中词项总数;(2)词项向量TVector的分值都对应到词项空间TSpace,其中,

TVector=(val1,val2,…,val|Lex|)

式中TVector为词项向量,valk(1≤k≤|Lex|)是在词项termk维度上的取值,词项termk在词项空间TSpace中,并且|TVector|=|TSpace|=|Lex|,即词项向量TVector的维数等于词项空间TSpace的词项总数|Lex|,|Lex|为基本词汇库集合Lex中词项总数;(3)语义空间SSpace是双词项集合,其中SSpace定义如下:

SSpace={dbtl|dbtl=(termi,termj),termi∈Lex,termj∈Lex,

1≤i≤|Lex|,1≤j≤|Lex|,1≤l≤|Lex|2}

式中SSpace为语义空间,Lex与上述相同,dbtl为双词项并对应词项termi、termj,其中termi、termj都是Lex中的元素,语义空间SSpace的维度为|Lex|2,|Lex|为基本词汇库集合Lex中词项总数;(4)语义向量SVector的分值都对应到语义空间,其中,SVector定义如下:

式中SVector为语义向量,valk(1≤k≤|Lex|2)是在双词项dbtk维度上的取值,双词项dbtk在语义空间SSpace中,并且|SVector|=|SSpace|=|Lex|2,即语义向量SVector的维数等于语义空间SSpace的维度|Lex|2,|Lex|为基本词汇库集合Lex中词项总数;(5)

构建文档和主题语义向量,具体为其中,DTSk、TTS分别为文档dk、主题t的词项集合,分别为文档dk、主题t的词项向量,wki(1≤i≤n)为在文档dk中词项i的TF-IDF值,wtj(1≤j≤m)为在主题t中词项j的TF-IDF值,n、m为文档dk的词项集合DTSk、主题t的词项集合TTS的词项总数,词项向量中的0值对应在词项空间TSpace中但未出现在词项集合DTSk中的词项的取值,0值的个数为词项向量的维数减去文档dk的词项总数,即为|Lex|-n,同理词项向量中的0值对应在词项空间TSpace中但未出现在词项集合TTS中的词项的取值,0值的个数为词项向量的维数减去主题t的词项总数,即为|Lex|-m;(6)通过文档dk的词项集合DTSk与主题t的词项集合TTS之间的语义相似度构成语义相似度矩阵,具体如下:

其中termi、termj(1≤i≤n,1≤j≤m)分别为文档dk的词项集合DTSk中的词项i、主题t的词项集合TTS中的词项j,为文档dk的词项集合DTSk中的词项i与主题t的词项集合TTS中的词项j之间的语义相似度,n、m分别为文档dk的词项集合DTSk、主题t的词项集合TTS的词项总数;(7)通过文档和主题词项向量和文档词项集与主题词项集之间的语义相似度矩阵生成文档和主题语义向量,具体为:

其中分别为文档dk和主题t的语义向量,此两向量都是对应到语义空间SSpace中,DTSk、TTS分别为文档dk、主题t的词项集合,dbTSk为词项集合DTSk与TTS之间的双词项集合,termi属于词项集合DTSk中的词项,dbTSki为词项termi与主题t的词项集合TTS之间的双词项集合,双词项集合dbTSki明显为双词项集合dbTSk的子集,向量中分值都对应到双词项集合dbTSki,零向量对应到双词项集合SSpace-dbTSk,即这些双词项不属于双词项集合dbTSk并且此零向量的维数为|Lex|2-m*n,n、m分别为文档dk的词项集合DTSk、主题t的词项集合TTS的词项总数,dval(i-1)*m+j、tval(i-1)*m+j都是在双词项dbtr=(termi,termj)上的取值,其中termi属于词项集合DTSk中的词项,而termj属于词项集合TTS中的词项,wki、wtj分别为词项i在文档dk中的TF-IDF值、词项j在主题t中的TF-IDF值,为词项集合DTSk中的词项i与词项集合TTS中的词项j之间的语义相似度;(8)生成文档dk与主题t的相似度为文档dk的语义向量与主题t的语义向量的余弦值,具体为:其中Sim(dk,t)为文档dk与主题t相似度。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西华大学;西藏飞跃智能科技有限公司,未经西华大学;西藏飞跃智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410026335.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top