[发明专利]一种查询词的处理方法和装置有效
申请号: | 201110201103.0 | 申请日: | 2011-07-18 |
公开(公告)号: | CN102890674A | 公开(公告)日: | 2013-01-23 |
发明(设计)人: | 赵京雷;孙丽;杨旭;林锋;冯炯 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 查询 处理 方法 装置 | ||
1.一种查询词的处理方法,其特征在于,包括:
接收用户输入的查询词,所述查询词包括若干个词项;
识别所述查询词中的多词单元,所述多词单元为多个词项构成的语法结构;
以所述查询词中的多词单元和除多词单元外的词项为处理单位,对所述查询词进行丢词处理,得到丢词处理后的新查询词。
2.如权利要求1所述的方法,其特征在于,通过以下步骤识别所述查询词中的多词单元:
将所述查询词划分为多个浅层语段,所述浅层语段为多个词项构成的短语层次结构:
依次处理各浅层语段,从前往后取得相应的多词单元。
3.如权利要求2所述的方法,其特征在于,所述处理各浅层语段的步骤,包括:
步骤1:读取一个浅层语段,并以该浅层语段的起始位置作为当前多词单元的起始位置;
步骤2:从当前多词单元的起始位置开始,在这个浅层语段中读取当前词项和下一个词项;
步骤3:根据所述当前词项和下一个词项的特征,判断当前多词单元的起始位置到当前词项所在位置构成的语法结构是否为一个多词单元,若是,则执行步骤4,否则,执行步骤5;
步骤4:保存该多词单元,以下一个词项所在位置作为当前多词单元的起始位置,并返回步骤2;
步骤5:判断下一个词项所在位置是否为该浅层语段的结束位置,若是,则结束所述处理过程,否则,执行步骤6;
步骤6:从下一个词项所在位置开始,在这个浅层语段中读取当前词项和下一个词项,并返回步骤3。
4.如权利要求2所述的方法,其特征在于,所述当前词项和下一个词项的特征包括语义特征;
所述判断当前多词单元的起始位置到当前词项所在位置构成的语法结构是否为一个多词单元的步骤,包括:
判断当前词项的语义特征和下一词项的语义特征是否均为特定的语义特征,若否,则确定当前多词单元的起始位置到当前词项所在位置构成的语法结构是一个多词单元。
5.如权利要求2所述的方法,其特征在于,所述当前词项和下一个词项的特征包括统计特征;
所述判断当前多词单元的起始位置到当前词项所在位置构成的语法结构是否为一个多词单元的步骤,包括:
判断所述当前词项和下一个词项的特征的连续出现频率是否大于第一阈值,若是,则确定当前多词单元的起始位置到当前词项所在位置构成的语法结构是一个多词单元。
6.如权利要求1所述的方法,其特征在于,还包括:
分别对所述查询词中的各多词单元和除多词单元外的各词项进行重要性评估,得到相应的重要性评估结果;
所述对所述查询词进行丢词处理的步骤,包括:
将所述查询词中所有处理单位的重要性评估结果,从小到大进行排序;
基于优先丢掉排在前面的处理单位的原理,对所述查询词进行丢词处理,得到丢词处理后的新查询词。
7.如权利要求1所述的方法,其特征在于,所述对查询词进行丢词处理的步骤,包括:
获取所述查询词的长度;
根据所述查询词的长度,选择丢词算法对所述查询词进行丢词处理,其中,不同查询词的长度对应不同的丢词算法。
8.如权利要求6所述的方法,其特征在于,通过如下步骤对多词单元进行重要性评估:
依据该多词单元中各词项的重要性、各词项间关系和该多词单元在所述查询词中的位置,对该多词单元进行重要性评估。
9.如权利要求6或8所述的方法,其特征在于,通过如下步骤对词项进行重要性评估:
依据统计特征、词级特征、语法特征和语义特征中的一种或多种,评估词项的重要性。
10.如权利要求1所述的方法,其特征在于,在识别所述查询词中的多词单元前,所述方法还包括:
对所述查询词进行预处理操作,所述预处理操作包括:大小写转换,标点符号过滤,词性标注,浅层语段划分,中心词抽取,词项特殊语义标记中的一种或多种。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110201103.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种辅助定位的冲压模具
- 下一篇:一种硬质冲压片级进模具冲压系统