[发明专利]一种针对中小型网站的模块化用户检索意图建模方法有效
申请号: | 201611244184.1 | 申请日: | 2016-12-29 |
公开(公告)号: | CN106599304B | 公开(公告)日: | 2020-03-24 |
发明(设计)人: | 郭克华;李婷 | 申请(专利权)人: | 中南大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/33 |
代理公司: | 长沙正奇专利事务所有限责任公司 43113 | 代理人: | 马强;王娟 |
地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 中小型 网站 模块化 用户 检索 意图 建模 方法 | ||
1.一种针对中小型网站的模块化用户检索意图建模方法,其特征在于,包括以下步骤:
1)将从用户与中小型网站服务器交互中提取的文本信息记为T,从文本T中提取初始关键词集K1={(ki,w1(ki))|1≤i≤R},其中,ki代表第i个关键词,R表示集合K1的元素个数,w1(ki)表示关键词ki的权重值,w1(ki)的值等于词语ki的交叉信息熵值TFIDF(ki),并计算关键词的词性因子权重p(ki)、词语ki在文本T中的频率freq(ki)和TFIDF(ki);
2)计算K1={(ki,w1(ki))|1≤i≤R}中各关键词的综合权重值w(ki),得到关键词集K2={(ki,w(ki))|1≤i≤R};ki的综合权重值计算公式如下:
w(ki)=a*F(ki)+b*P(ki)+c*S(ki)+d*L(ki)+e*TFIDF(ki);
其中,a、b、c、d、e分别为各特征权重的比例系数;F(ki)为词语ki的词频权重;S(ki)为词语ki的词跨度权重;L(ki)为词语ki的词位置权重;
3)对所述关键词集K2={(ki,w(ki))|1≤i≤R}进行遍历,从第i个关键词ki开始判断,将第i个之后的关键词kj依次与ki进行比较,其中i+1≤j≤R;若ki包含kj,且w(ki)>w(kj),则将ki加入到过滤后的关键词集中;否则,若kj包含ki,且w(kj)>w(ki),则将kj加入到过滤后的关键词集中;若上述两种情况都不满足,则将ki和kj都加入到过滤后的关键词集中,直到第i个之后的关键词全部和第i个比较完毕;当关键词集K2中的元素全部遍历一遍之后,结束,最后返回过滤后的关键词集K={(kr,w(kr))|1≤r≤M},其中M表示集合K中的元素个数;将K中的Q个元素作为重新检索的条件在搜索引擎中重新检索,得到Ts={ti|1≤i≤H},ti表示Ts中第i个文本信息,H表示Ts中文本个数;1≤Q≤M;
4)按降序对集合K中关键词的综合权重值w(kr)排序,得到向量U=[w1,w2,…,wM],即为用户意图模型,其中w1,w2,…,wM分别对应排好序的K中关键词的综合权重值w(kr);
5)遍历文本的特征向量Ti=[wt1,wt2,…,wtM],依次判断wti是否为0,若不为0,则将用户意图模型U=[w1,w2,…,wM]中对应的wi除以1+wi,直到Ti中所有的元素遍历完成,将所求的wi/1+wi求和,得到一个值w_sum;再将用户意图模型U=[w1,w2,…,wM]中所有的wi除以1+wi,并求和,即最后将w_sum除以即得到用户意图模型与文本的特征向量Ti的加权海明距离dis(U,Ti);
6)利用以下公式计算U与Ti的最终相似度值Sim(U,Ti):
Sim(U,Ti)=p1*W(Ti,U)+p2*dis(U,Ti);
其中,p1、p2为比例系数;
7)将集合Ts中的所有文本按Sim(U,Ti)降序排列并返回给用户,从而实现基于用户意图检索的建模过程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611244184.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种地址匹配方法及系统
- 下一篇:一种基于众包的异构媒体语义融合方法