[发明专利]一种针对中小型网站的模块化用户检索意图建模方法有效
申请号: | 201611244184.1 | 申请日: | 2016-12-29 |
公开(公告)号: | CN106599304B | 公开(公告)日: | 2020-03-24 |
发明(设计)人: | 郭克华;李婷 | 申请(专利权)人: | 中南大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/33 |
代理公司: | 长沙正奇专利事务所有限责任公司 43113 | 代理人: | 马强;王娟 |
地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种针对中小型网站的模块化用户检索意图建模方法,基于结合交叉信息熵和词语特征信息的关键词提取方法以及结合余弦相似度和加权海明距离的文本排序方法的用户意图检索模型,取得了不要求用户进行额外的反馈操作,在用户正常检索时可以实现用户意图的即时建模过程的进步,达到了不需要用户任何反馈的条件下,为用户推荐更满意的检索结果的效果,节省了用户查找目标结果的时间和精力,提高了用户查询的效率,以及使得目标结果更符合用户检索意图。 | ||
搜索关键词: | 一种 针对 中小型 网站 模块化 用户 检索 意图 建模 方法 | ||
【主权项】:
一种针对中小型网站的模块化用户检索意图建模方法,其特征在于,包括以下步骤:1)将从用户与中小型网站服务器交互中提取的文本信息记为T,从文本T中提取初始关键词集K1={(ki,w1(ki))|1≤i≤R},其中,ki代表第i个关键词,R表示集合K1的元素个数,w1(ki)表示关键词ki的权重值,w1(ki)的值等于词语ki的交叉信息熵值TFIDF(ki),并计算关键词的词性因子权重p(ki)、词语ki在文本T中的频率freq(ki)和TFIDF(ki);2)计算K1={(ki,w1(ki))|1≤i≤R}中各关键词的综合权重值w(ki),得到关键词集K2={(ki,w(ki))|1≤i≤R};ki的综合权重值计算公式如下:w(ki)=a*F(ki)+b*P(ki)+c*S(ki)+d*L(ki)+e*TFIDF(ki);其中,a、b、c、d、e分别为各特征权重的比例系数;F(ki)为词语ki的词频权重;S(ki)为词语ki的词跨度权重;L(ki)为词语ki的词位置权重;3)对所述关键词集K2={(ki,w(ki))|1≤i≤R}进行遍历,从第i个关键词ki开始判断,将第i个之后的关键词kj依次与ki进行比较,其中i+1≤j≤R;若ki包含kj,且w(ki)>w(kj),则将ki加入到过滤后的关键词集中;否则,若kj包含ki,且w(kj)>w(ki),则将kj加入到过滤后的关键词集中;若上述两种情况都不满足,则将ki和kj都加入到过滤后的关键词集中,直到第i个之后的关键词全部和第i个比较完毕;当关键词集K2中的元素全部遍历一遍之后,结束,最后返回过滤后的关键词集K={(kr,w(kr))|1≤r≤M},其中M表示集合K中的元素个数;4)按降序对集合K中关键词的综合权重值w(kr)排序,得到向量U=[w1,w2,…,wM],即为用户意图模型,其中w1,w2,…,wM分别对应排好序的K中关键词的综合权重值w(kr);5)遍历文本的特征向量Ti=[wt1,wt2,…,wtM],依次判断wti是否为0,若不为0,则将用户意图模型U=[w1,w2,…,wM]中对应的wi除以1+wi,直到Ti中所有的元素遍历完成,将所求的wi/1+wi求和,得到一个值w_sum;再将用户意图模型U=[w1,w2,…,wM]中所有的wi除以1+wi,并求和,即最后将w_sum除以即得到用户意图模型与文本的特征向量Ti的加权海明距离dis(U,Ti);6)利用以下公式计算U与Ti的最终相似度值Sim(U,Ti):Sim(U,Ti)=p1*W(Ti,U)+p2*dis(U,Ti);其中,p1、p2为比例系数;7)将集合Ts中的所有文本按Sim(U,Ti)降序排列并返回给用户,从而实现基于用户意图检索的建模过程。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611244184.1/,转载请声明来源钻瓜专利网。
- 上一篇:一种地址匹配方法及系统
- 下一篇:一种基于众包的异构媒体语义融合方法