[发明专利]一种生成领域需求模版的方法及其装置有效
申请号: | 201110308830.7 | 申请日: | 2011-10-12 |
公开(公告)号: | CN102368260A | 公开(公告)日: | 2012-03-07 |
发明(设计)人: | 柴春光;黄际洲;时迎超 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市威世博知识产权代理事务所(普通合伙) 44280 | 代理人: | 何青瓦;李庆波 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 生成 领域 需求 模版 方法 及其 装置 | ||
1.一种生成领域需求模版的方法,其特征在于,所述方法包括:
A.获取特定领域的候选需求模版;
B.提取候选需求模版的特征,所述特征至少包括:表征候选需求模板与所述特定领域之间紧密度的相似度特征、表征候选需求模板覆盖用户搜索请求query能力的泛化能力特征以及表征候选需求模板中未泛化的词语对候选需求模板正确性所产生影响的边界词特征中的至少一种;
C.利用提取的特征对候选需求模版进行排序;
D.根据排序的结果从候选需求模版中选择最终需求模版作为特定领域的需求模版。
2.根据权利要求1所述的方法,其特征在于,所述步骤A包括:
A1.从搜索日志中选取用户query中与预设的所述特定领域的限定词匹配的query;
A2.将选取的query中与预设的所述特定领域的槽关键词匹配的部分替换为通配符,得到候选需求模版。
3.根据权利要求2所述的方法,其特征在于,在所述步骤A2之后还包括:根据预设的对所述特定领域的槽位数量要求,从所述步骤A2得到的候选需求模版中过滤掉不满足槽位数量要求的候选需求模版。
4.根据权利要求1所述的方法,其特征在于,提取候选需求模版W的相似度特征的步骤包括:
获取所述W的核心词向量及所述特定领域的核心词向量;
计算所述W的核心词向量与所述特定领域的核心词向量之间的相似度,并将该相似度作为所述W的相似度特征。
5.根据权利要求4所述的方法,其特征在于,获取所述W的核心词向量的步骤包括:
从所述W在搜索日志中覆盖的query里选取查询次数最多的N1个query,并在所述N1个query从搜索引擎返回的搜索结果中确定核心词及核心词的权重,以形成所述W的核心词向量,其中N1为正整数。
6.根据权利要求4所述的方法,其特征在于,获取所述特定领域的核心词向量的步骤包括:
利用所述特定领域的种子query获取搜索引擎返回的搜索结果,并在该搜索结果中确定核心词及核心词的权重,以形成所述特定领域的核心词向量。
7.根据权利要求6所述的方法,其特征在于,所述特定领域的种子query的获取方式包括:
方式一、从所述特定领域包含的所有候选需求模版中选取在搜索日志中覆盖query数最多的N2个候选需求模版,并针对所述N2个候选需求模版,从每个候选需求模版覆盖的query中选择查询次数最多的M1个query作为种子query,其中N2及M1为正整数;或者,
方式二、将预设的所述特定领域的槽关键词与预设的所述特定领域的限定词进行组合生成所述特定领域的种子query;或者,
方式三、利用所述方式一选择出部分种子query后,利用预设的所述特定领域的槽关键词词典将所述方式一选择出的种子query中的槽关键词替换为所述槽关键词词典中的其他槽关键词得到扩展的种子query;所述部分种子query和所述扩展的种子query构成所述特定领域的种子query。
8.根据权利要求1所述的方法,其特征在于,提取候选需求模版W的泛化能力特征的步骤包括:
确定所述W对应的槽关键词序列,统计所述W对应的槽关键词序列中互异的槽关键词序列的数量并依据该数量计算所述W的泛化能力特征,其中所述W对应的一个槽关键词序列是由所述W在搜索日志中覆盖的一个query中的槽关键词组成的序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110308830.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:高压真空断路器
- 下一篇:一种高效太阳能保温水箱