[发明专利]一种基于多语义分析和个性化排序的语义检索方法无效

专利信息
申请号: 201210488572.X 申请日: 2012-11-26
公开(公告)号: CN103020164A 公开(公告)日: 2013-04-03
发明(设计)人: 马应龙;张潇澜;于潇 申请(专利权)人: 华北电力大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京众合诚成知识产权代理有限公司 11246 代理人: 陈波
地址: 102206 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 语义 分析 个性化 排序 检索 方法
【权利要求书】:

1.一种基于多语义分析和个性化排序的语义检索方法,其特征在于,具体包括以下步骤:

步骤1:利用爬虫技术从互联网上获取网页文档的一部分作为训练模型进行手工分类,结合多语义分析方法MSA构造词向量库,将网页文档用向量表示,并把训练模型放到支持向量机SVM分类器中对文档向量进行训练,新的网页利用此模型借助SVM进行分类;将所有网页的类别信息作为一个属性写到索引库中;

步骤2:基于步骤1形成的词向量库,将用户输入的检索关键词构造各自的词向量,形成最终的查询向量,并将查询向量与索引库进行类别匹配查询,得到初始的网页检索结果;

步骤3:根据用户的个人定制信息和历史访问信息对初始检索结果进行优化排序,并将最终检索结果返回给用户。

2.根据权利要求1所述的一种基于多语义分析和个性化排序的语义检索方法,其特征在于,所述步骤1中,基于多语义分析方法MSA构造词向量库,并将网页文档的分类结果写到索引中,形成索引库的过程;具体包括步骤:

步骤11:构造概念空间;本发明设定空间为m维;

概念空间的基础维度是一些类别标签的集合,能够表示整个语料库的信息,一般从语料库分类标签中直接提取的m个类别标签构成向量的m个维度,则网页文档中每个词的语义信息由一个m维向量来描述,称为词向量;

步骤12:词向量分量值的确定:

词是从训练模型的网页文档中提取出来的,词向量的每一个分量值的大小由训练模型的所有文档来决定;词向量的每一个分量值计算公式为:

w(ci,tj)=Σk=1k=|D|H(ci,dk)log2(1+tf(dk,tj))log2(1+length(dk))]]>

其中,tj代表词向量库中的第j个词,w(ci,tj)代表词tj与对应词向量中第i个维度ci的关系,即是词tj对应词向量得第i个分量值;|D|为训练文档的数量;tf(dk,tj)指的是词tj在文档dk中出现的频率;H(ci,dk)是个判断函数:如果文档dk属于维度ci所描述的领域,则H(ci,dk)值为1,否则为0;length(dk)为文档dk的长度,即文档dk经过分词去噪后得到的词的个数,当某一个词在文档中多次出现时,则重复计数,即length(dk)≥n;k是文档的数量;

步骤13:词向量单位化处理及词向量库的形成:

将词向量单位化处理,使其分量值范围为[0,1],从而具有更好的通用性;多个单位化后的词向量便形成词向量库;词向量单位化的计算公式为:

w(ci,tj)=w(ci,tj)Σi=0mw(ci,tj)]]>

其中,单位化后的词向量记为w′(ci,tj)为的第i个分量值,则词向量库为:

tj=(w(c1,tj),w(c2,tj),...,w(cm,tj))T]]>

步骤14:通过TFIDF方法得到文档中每个词的权值并将此权值进行单位化处理;TFIDF权值法是流行多年的且被证明切实有效的权值法之一,它对权值的确定仅依赖于语料库的整体情况而不考虑分类情况,因此具有很强的通用性,能够应用于多分类文本表示中的词的权值确定;TFIDF权值确定法的计算公式为:

weight(tg,dk)=TFIDF(tg,dk)=tf(tg,dk)×lg|D||D|]]>

其中,tg为文档dk的第g个分词,weight(tg,dk)代表词tg在文档dk中所占的权值,D代表训练文档的集合,dk代表第k个文档;|D|为训练文档的数量;D'代表含有词tg的文档集合,|D′|为集合D′中文档的数量;

同理单位化处理,使得文档分词后词的权值取值范围为[0,1],文档分词后词的权值的计算公式为:

weight(tg,dk)=weight(tg,dk)Σj=1nweight(tg,dk)]]>

其中,weight'(tg,dk)为单位化后词tg在文档dk中所占的权值,n为文档的分词种类总数;

步骤15:文档向量形成;在采用TFIDF法表示权值以后,多语义分析(MSA)的文档向量就形成了,文档dk对应的文档向量中第i分量值的计算公式为:

wd(ci,dk)=Σg=1n{w(ci,tg)×weight(tg,dk)}]]>

文档dk的文档向量形式记为:

dk=weight(t1,dk)×t1+weight(t2,dk)×t2+...+weight(tn,dk)×tn]]>

=Σg=1n{weight(tg,dk)×tg}]]>

其中,n为文档的分词种类总数,为tg在词向量库中的向量形式;

此文档向量,每个分量值直接代表了此文档跟对应维度(类别)的相关度,具有很强的语义性,是匹配查询的基础;之后借助预先定义好的m个类别标签,使用支持向量机技术对文档向量进行分类并作为新的网页的分类标准,并将所有网页的类别作为一个属性写到索引库中。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华北电力大学,未经华北电力大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210488572.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top