[发明专利]一种生成领域需求模版的方法及其装置有效

专利信息
申请号: 201110308830.7 申请日: 2011-10-12
公开(公告)号: CN102368260A 公开(公告)日: 2012-03-07
发明(设计)人: 柴春光;黄际洲;时迎超 申请(专利权)人: 北京百度网讯科技有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 深圳市威世博知识产权代理事务所(普通合伙) 44280 代理人: 何青瓦;李庆波
地址: 100085 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 生成 领域 需求 模版 方法 及其 装置
【说明书】:

【技术领域】

发明涉及自然语言处理技术,特别涉及一种生成领域需求模版的方法及其装置。

【背景技术】

搜索引擎为人们找到所需信息提供了极大的便利。在传统的搜索引擎为用户提供信息的方式中,是通过查找包含用户搜索关键字的索引,为用户返回与关键字匹配的相关页面来实现的。例如,用户的搜索请求(query)为“北京汽车4S店招聘销售主管”,这时会得到招聘网站的搜索结果页面,用户可以通过点击该页面进入招聘网站,然后在该招聘网站内填写相关信息并在站内进行检索,得到自己真正需要的信息。如果搜索引擎能够更好地理解用户在检索时的真正目的,那么搜索引擎就能够更准确地向用户返回真正符合其需求的信息。因此,自然语言处理对搜索引擎而言非常重要。在自然语言处理中,可以采用基于领域的需求模版对用户的搜索目的进行识别。例如,用户的query为“大钟寺到西单怎么走”,如果该query与交通领域的需求模版相匹配,就可以得知该用户有交通领域的需求,因此可以直接向该用户返回与交通领域相关的应用。可见,是否能够产生高质量的领域需求模版,对搜索引擎正确理解用户的搜索意图而言,非常重要。

在以往生成领域需求模版时,针对不同的应用,通常采用不同的挖掘方法进行,这不仅浪费了大量的人力物力,而且这种生成领域需求模版的方法,适应性差,难以随着应用的变化而做出相应的改变。

【发明内容】

本发明所要解决的技术问题是提供一种生成领域需求模版的方法及装置,以解决采用现有技术生成的领域需求模版适应性差的缺陷。

本发明为解决技术问题而采用的技术方案是提供一种生成领域需求模版的方法,包括:A.获取特定领域的候选需求模版;B.提取候选需求模版的特征,所述特征至少包括:表征候选需求模板与所述特定领域之间紧密度的相似度特征、表征候选需求模板覆盖用户搜索请求query能力的泛化能力特征以及表征候选需求模板中未泛化的词语对候选需求模板正确性所产生影响的边界词特征中的至少一种;C.利用提取的特征对候选需求模版进行排序;D.根据排序的结果从候选需求模版中选择最终需求模版作为特定领域的需求模版。

根据本发明之一优选实施例,所述步骤A包括:A1.从搜索日志中选取用户query中与预设的所述特定领域的限定词匹配的query;A2.将选取的query中与预设的所述特定领域的槽关键词匹配的部分替换为通配符,得到候选需求模版。

根据本发明之一优选实施例,在所述步骤A2之后还包括:根据预设的对所述特定领域的槽位数量要求,从所述步骤A2得到的候选需求模版中过滤掉不满足槽位数量要求的候选需求模版。

根据本发明之一优选实施例,提取候选需求模版W的相似度特征的步骤包括:获取所述W的核心词向量及所述特定领域的核心词向量;计算所述W的核心词向量与所述特定领域的核心词向量之间的相似度,并将该相似度作为所述W的相似度特征。

根据本发明之一优选实施例,获取所述W的核心词向量的步骤包括:从所述W在搜索日志中覆盖的query里选取查询次数最多的N1个query,并在所述N1个query从搜索引擎返回的搜索结果中确定核心词及核心词的权重,以形成所述W的核心词向量,其中N1为正整数。

根据本发明之一优选实施例,获取所述特定领域的核心词向量的步骤包括:利用所述特定领域的种子query获取搜索引擎返回的搜索结果,并在该搜索结果中确定核心词及核心词的权重,以形成所述特定领域的核心词向量。

根据本发明之一优选实施例,所述特定领域的种子query的获取方式包括:方式一、从所述特定领域包含的所有候选需求模版中选取在搜索日志中覆盖query数最多的N2个候选需求模版,并针对所述N2个候选需求模版,从每个候选需求模版覆盖的query中选择查询次数最多的M1个query作为种子query,其中N2及M1为正整数;或者,方式二、将预设的所述特定领域的槽关键词与预设的所述特定领域的限定词进行组合生成所述特定领域的种子query;或者,方式三、利用所述方式一选择出部分种子query后,利用预设的所述特定领域的槽关键词词典将所述方式一选择出的种子query中的槽关键词替换为所述槽关键词词典中的其他槽关键词得到扩展的种子query;所述部分种子query和所述扩展的种子query构成所述特定领域的种子query。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110308830.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top