[发明专利]一种基于多语义分析和个性化排序的语义检索方法无效

申请号：	201210488572.X	申请日：	2012-11-26
公开（公告）号：	CN103020164A	公开（公告）日：	2013-04-03
发明（设计）人：	马应龙;张潇澜;于潇	申请（专利权）人：	华北电力大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京众合诚成知识产权代理有限公司 11246	代理人：	陈波
地址：	102206 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于语义分析个性化排序检索方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多语义分析和个性化排序的语义检索方法，其特征在于，具体包括以下步骤：

步骤1：利用爬虫技术从互联网上获取网页文档的一部分作为训练模型进行手工分类，结合多语义分析方法MSA构造词向量库，将网页文档用向量表示，并把训练模型放到支持向量机SVM分类器中对文档向量进行训练，新的网页利用此模型借助SVM进行分类；将所有网页的类别信息作为一个属性写到索引库中；

步骤2：基于步骤1形成的词向量库，将用户输入的检索关键词构造各自的词向量，形成最终的查询向量，并将查询向量与索引库进行类别匹配查询，得到初始的网页检索结果；

步骤3：根据用户的个人定制信息和历史访问信息对初始检索结果进行优化排序，并将最终检索结果返回给用户。

2.根据权利要求1所述的一种基于多语义分析和个性化排序的语义检索方法，其特征在于，所述步骤1中，基于多语义分析方法MSA构造词向量库，并将网页文档的分类结果写到索引中，形成索引库的过程；具体包括步骤：

步骤11：构造概念空间；本发明设定空间为m维；

概念空间的基础维度是一些类别标签的集合，能够表示整个语料库的信息，一般从语料库分类标签中直接提取的m个类别标签构成向量的m个维度，则网页文档中每个词的语义信息由一个m维向量来描述，称为词向量；

步骤12：词向量分量值的确定：

词是从训练模型的网页文档中提取出来的，词向量的每一个分量值的大小由训练模型的所有文档来决定；词向量的每一个分量值计算公式为：

w(ci,tj)=Σk=1k=|D|H(ci,dk)log2(1+tf(dk,tj))log2(1+length(dk))]]>

其中，t_j代表词向量库中的第j个词，w(c_i，t_j)代表词t_j与对应词向量中第i个维度c_i的关系，即是词t_j对应词向量得第i个分量值；|D|为训练文档的数量；tf(d_k,t_j)指的是词t_j在文档d_k中出现的频率；H(c_i，d_k)是个判断函数：如果文档d_k属于维度c_i所描述的领域，则H(c_i，d_k)值为1，否则为0；length(d_k)为文档d_k的长度，即文档d_k经过分词去噪后得到的词的个数，当某一个词在文档中多次出现时，则重复计数，即length(d_k)≥n；k是文档的数量；