[发明专利]一种生成领域需求模版的方法及其装置有效
申请号: | 201110308830.7 | 申请日: | 2011-10-12 |
公开(公告)号: | CN102368260A | 公开(公告)日: | 2012-03-07 |
发明(设计)人: | 柴春光;黄际洲;时迎超 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市威世博知识产权代理事务所(普通合伙) 44280 | 代理人: | 何青瓦;李庆波 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 生成 领域 需求 模版 方法 及其 装置 | ||
【技术领域】
本发明涉及自然语言处理技术,特别涉及一种生成领域需求模版的方法及其装置。
【背景技术】
搜索引擎为人们找到所需信息提供了极大的便利。在传统的搜索引擎为用户提供信息的方式中,是通过查找包含用户搜索关键字的索引,为用户返回与关键字匹配的相关页面来实现的。例如,用户的搜索请求(query)为“北京汽车4S店招聘销售主管”,这时会得到招聘网站的搜索结果页面,用户可以通过点击该页面进入招聘网站,然后在该招聘网站内填写相关信息并在站内进行检索,得到自己真正需要的信息。如果搜索引擎能够更好地理解用户在检索时的真正目的,那么搜索引擎就能够更准确地向用户返回真正符合其需求的信息。因此,自然语言处理对搜索引擎而言非常重要。在自然语言处理中,可以采用基于领域的需求模版对用户的搜索目的进行识别。例如,用户的query为“大钟寺到西单怎么走”,如果该query与交通领域的需求模版相匹配,就可以得知该用户有交通领域的需求,因此可以直接向该用户返回与交通领域相关的应用。可见,是否能够产生高质量的领域需求模版,对搜索引擎正确理解用户的搜索意图而言,非常重要。
在以往生成领域需求模版时,针对不同的应用,通常采用不同的挖掘方法进行,这不仅浪费了大量的人力物力,而且这种生成领域需求模版的方法,适应性差,难以随着应用的变化而做出相应的改变。
【发明内容】
本发明所要解决的技术问题是提供一种生成领域需求模版的方法及装置,以解决采用现有技术生成的领域需求模版适应性差的缺陷。
本发明为解决技术问题而采用的技术方案是提供一种生成领域需求模版的方法,包括:A.获取特定领域的候选需求模版;B.提取候选需求模版的特征,所述特征至少包括:表征候选需求模板与所述特定领域之间紧密度的相似度特征、表征候选需求模板覆盖用户搜索请求query能力的泛化能力特征以及表征候选需求模板中未泛化的词语对候选需求模板正确性所产生影响的边界词特征中的至少一种;C.利用提取的特征对候选需求模版进行排序;D.根据排序的结果从候选需求模版中选择最终需求模版作为特定领域的需求模版。
根据本发明之一优选实施例,所述步骤A包括:A1.从搜索日志中选取用户query中与预设的所述特定领域的限定词匹配的query;A2.将选取的query中与预设的所述特定领域的槽关键词匹配的部分替换为通配符,得到候选需求模版。
根据本发明之一优选实施例,在所述步骤A2之后还包括:根据预设的对所述特定领域的槽位数量要求,从所述步骤A2得到的候选需求模版中过滤掉不满足槽位数量要求的候选需求模版。
根据本发明之一优选实施例,提取候选需求模版W的相似度特征的步骤包括:获取所述W的核心词向量及所述特定领域的核心词向量;计算所述W的核心词向量与所述特定领域的核心词向量之间的相似度,并将该相似度作为所述W的相似度特征。
根据本发明之一优选实施例,获取所述W的核心词向量的步骤包括:从所述W在搜索日志中覆盖的query里选取查询次数最多的N1个query,并在所述N1个query从搜索引擎返回的搜索结果中确定核心词及核心词的权重,以形成所述W的核心词向量,其中N1为正整数。
根据本发明之一优选实施例,获取所述特定领域的核心词向量的步骤包括:利用所述特定领域的种子query获取搜索引擎返回的搜索结果,并在该搜索结果中确定核心词及核心词的权重,以形成所述特定领域的核心词向量。
根据本发明之一优选实施例,所述特定领域的种子query的获取方式包括:方式一、从所述特定领域包含的所有候选需求模版中选取在搜索日志中覆盖query数最多的N2个候选需求模版,并针对所述N2个候选需求模版,从每个候选需求模版覆盖的query中选择查询次数最多的M1个query作为种子query,其中N2及M1为正整数;或者,方式二、将预设的所述特定领域的槽关键词与预设的所述特定领域的限定词进行组合生成所述特定领域的种子query;或者,方式三、利用所述方式一选择出部分种子query后,利用预设的所述特定领域的槽关键词词典将所述方式一选择出的种子query中的槽关键词替换为所述槽关键词词典中的其他槽关键词得到扩展的种子query;所述部分种子query和所述扩展的种子query构成所述特定领域的种子query。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110308830.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:高压真空断路器
- 下一篇:一种高效太阳能保温水箱