[发明专利]一种针对中小型网站的模块化用户检索意图建模方法有效
申请号: | 201611244184.1 | 申请日: | 2016-12-29 |
公开(公告)号: | CN106599304B | 公开(公告)日: | 2020-03-24 |
发明(设计)人: | 郭克华;李婷 | 申请(专利权)人: | 中南大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/33 |
代理公司: | 长沙正奇专利事务所有限责任公司 43113 | 代理人: | 马强;王娟 |
地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 中小型 网站 模块化 用户 检索 意图 建模 方法 | ||
本发明公开了一种针对中小型网站的模块化用户检索意图建模方法,基于结合交叉信息熵和词语特征信息的关键词提取方法以及结合余弦相似度和加权海明距离的文本排序方法的用户意图检索模型,取得了不要求用户进行额外的反馈操作,在用户正常检索时可以实现用户意图的即时建模过程的进步,达到了不需要用户任何反馈的条件下,为用户推荐更满意的检索结果的效果,节省了用户查找目标结果的时间和精力,提高了用户查询的效率,以及使得目标结果更符合用户检索意图。
技术领域
本发明涉及计算机领域,特别是一种针对中小型网站的模块化用户检索意图建模方法。
背景技术
近年来,各大型搜索引擎公司始终致力于搜索引擎算法的优化,来预测用户搜索意图。与大型搜索引擎公司相比,中小型网站投入成本一般较低,在网站建设和维护中常忽略搜索算法的优化,用户在浏览这些网站时,可能耗费更多的精力和时间来得到符合自己检索意图的结果。因此,就需要为中小型网站提供一种检索优化方法,使其能为用户提供更加优质的检索服务。
目前,成熟的商用搜索引擎在用户检索意图研究方面颇有成果,已经提出的技术方案主要有以下几种:将用户查询意图分为导航类、信息类和事务类三种;通过分析用户搜索上下文猜测其检索意图;将查询结果分类后让用户粗略选择,并以此为依据对结果再提取;通过分析Web日志得到用户历史模型;通过分析浏览器的公共查询日志和用户个人查询活动来理解用户意图。对于中小型网站的优化,提出的技术有:基于缓冲、压缩编码等技术或思想的系统优化策略;站内优化策略和站外优化策略。这些方法都是对网站设计方案的研究。对于中小型网站的文本检索通常采用的检索模式是将用户输入的查询条件作为查询依据,仅以用户提交的关键词与数据库中的数据进行匹配,得到查询结果列表。
成熟的商用搜索引擎在用户检索意图研究方面提出的技术方案并未广泛应用于中小型网站的优化;对于中小型网站提出的技术方案都是对网站设计方案的研究。而针对中小型网站的文本检索所采用的检索模式仅以用户提交的关键词作为查询依据,较少考虑用户检索意图。一般情况下,用户只输入简短的词语作为查询条件,这样就导致在该检索模式下的检索结果滥而不准,用户则需要耗费更多的时间和精力去通过查看链接的详细信息来查找目标结果。
发明内容
本发明所要解决的技术问题是,针对现有技术不足,提供一种针对中小型网站的模块化用户检索意图建模方法。
为解决上述技术问题,本发明所采用的技术方案是:一种针对中小型网站的模块化用户检索意图建模方法,包括以下步骤:
1)将从用户与中小型网站服务器交互中提取的文本信息记为T,从文本T中提取初始关键词集K1={(ki,w1(ki))|1≤i≤R},其中,ki代表第i个关键词,R表示集合K1的元素个数,w1(ki)表示关键词ki的权重值,w1(ki)的值等于词语ki的交叉信息熵值TFIDF(ki),并计算关键词的词性因子权重p(ki)、词语ki在文本T中的频率freq(ki)和TFIDF(ki);
2)计算K1={(ki,w1(ki))|1≤i≤R}中各关键词的综合权重值w(ki),得到关键词集K2={(ki,w(ki))|1≤i≤R};ki的综合权重值计算公式如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611244184.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种地址匹配方法及系统
- 下一篇:一种基于众包的异构媒体语义融合方法