[发明专利]一种查询词的处理方法和装置有效
申请号: | 201110201103.0 | 申请日: | 2011-07-18 |
公开(公告)号: | CN102890674A | 公开(公告)日: | 2013-01-23 |
发明(设计)人: | 赵京雷;孙丽;杨旭;林锋;冯炯 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 查询 处理 方法 装置 | ||
技术领域
本申请涉及互联网信息搜索技术领域,特别是涉及一种查询词的处理方法和装置。
背景技术
随着互联网上信息的飞速增长,网络上充斥了越来越多的冗余信息,而对于在网络上搜寻自己所需要信息的互联网用户而言,面对这些漫无边际的信息无疑像大海捞针。针对某个信息需求,通常搜索引擎提供一个网页界面,让用户在客户端通过浏览器软件提交查询词,然后很快返回一个可能和用户输入的查询词相关的信息列表。
然而,在很多情况下,用户输入的查询词并不能很好的反映用户的信息需求,从而不能准确匹配到想要的信息。对用户输入的查询词进行处理和变换,可以使得处理后的查询词能够更准确的反映用户需求,帮助用户快速找到目标信息,提高用户的搜索使用体验。
针对某个信息需求,用户可能某些时候使用非常详细的语言形式对相应查询词进行表述。然而现有的搜索引擎大都基于词袋(bag-of-word)模型构建,其假设词项相互之间没有关联。在这种情况下,过于详尽和冗长的查询词表述反而会对查询准确率和召回率产生副作用。例如,对于电子商务搜索而言,由于默认多词情况下词项之间是“AND”关系,因此,长的查询词往往导致很多零结果或少结果的情况,使得召回率比较低。并且,现有技术中搜索引擎进行信息查询时需要先对用户输入的查询词进行分词,对分词后得到的词项逐一与待查询信息进行匹配。对于过于详尽和冗长的查询词分词后将会得到较多的词项,对于数量较多的词项与待查询信息进行匹配时将会导致查询速度较慢,增加搜索引擎的工作压力。
查询缩写(Query Abbreviation)是对过于冗长或详细描述的查询词的一种处理方法,其通过有选择地筛选查询词中的词,保留那些能够反映用户需求的词,去掉噪音词,最终生成贴近用户查询意图的新查询词。在原查询是零结果或少结果时,采用查询缩写技术推荐若干与原查询词意图相近的新查询词,将其搜索结果展示给用户,能够提高用户的搜索体验,同时也在一定程度提高了电子商务网站上产品的曝光率和点击率,具有较大的商业价值。并且由于缩写后的词项较少,将数量较少的词项与待查询词进行匹配时将会加快查询的速度,减少搜索引擎的工作压力。
现有一种对用户冗长查询进行缩写的方法具体可以包括:
A、给定一个用户输入的长查询,包括若干个词项;
B、从中生成词项的可能候选子集集合;
C、使用互信息方法对子集集合进行评估;
D、挑选出满足最大生成树条件的子集作为缩写查询的结果;
E、使用缩写查询的结果替换原始长查询进行检索。
上述方法具有如下缺点:
以词项为单位进行过滤,很可能会把原本应该一起的多词单元拆开,对于搜索引擎而言,一方面,容易使得缩写查询的结果与原始长查询大相径庭,严重影响查询词处理的精度和准确度;另一方面,以词项为单位增加了处理步骤,导致花费了过多的处理时间,从而影响查询词处理的速度。对于用户而言,缩写查询的结果与原始长查询大相径庭,很有可能使得处理后的查询词抛弃了用户的信息需求,从而返回给用户的搜索结果也不能准确反映用户的信息需求,从而影响用户的搜索使用体验。并且,以词项为单位进行待查询信息匹配时,需要对多个词项与待查询信息进行多次匹配,将会减缓查询的匹配速度,增加服务器的工作压力。
总之,需要本领域技术人员迫切解决的一个技术问题就是:如何能够提高查询词处理的精度、准确度和速度,并且能够使得处理后的查询词能够最大程度地保留用户的信息需求。
发明内容
本申请所要解决的技术问题是提供一种查询词的处理方法和装置,能够提高查询词处理的精度、准确度和速度,并且能够在保留原查询词信息焦点的基础之上,使得处理后的查询词能够最大程度地保留用户的信息需求。
为了解决上述问题,本申请公开了一种查询词的处理方法,包括:
接收用户输入的查询词,所述查询词包括若干个词项;
识别所述查询词中的多词单元,所述多词单元为多个词项构成的语法结构;
以所述查询词中的多词单元和除多词单元外的词项为处理单位,对所述查询词进行丢词处理,得到丢词处理后的新查询词。
优选的,通过以下步骤识别所述查询词中的多词单元:
将所述查询词划分为多个浅层语段,所述浅层语段为多个词项构成的短语层次结构:
依次处理各浅层语段,从前往后取得相应的多词单元。
优选的,所述处理各浅层语段的步骤,包括:
步骤1:读取一个浅层语段,并以该浅层语段的起始位置作为当前多词单元的起始位置;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110201103.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种辅助定位的冲压模具
- 下一篇:一种硬质冲压片级进模具冲压系统