[发明专利]一种面向中文搜索引擎混杂语言的查询纠错方法及系统有效
申请号: | 201210320575.2 | 申请日: | 2012-08-31 |
公开(公告)号: | CN102867040A | 公开(公告)日: | 2013-01-09 |
发明(设计)人: | 程舒杨;熊锦华;公帅;颛悦;张成;程学旗;廖华明 | 申请(专利权)人: | 中国科学院计算技术研究所;人民搜索网络股份公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/24;G06F11/07 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国;梁挥 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 中文搜索引擎 混杂 语言 查询 纠错 方法 系统 | ||
1.一种面向中文搜索引擎混杂语言的查询纠错方法,其特征在于,包括:
步骤1,构建面向混杂语言的异构字符树词典,建立语言模型;
步骤2,获取用户查询的内容,初始化n=1,建立两个空的查询处理队列,分别为完成状态队列Cn和未完成状态队列NCn;
步骤3,对所述用户查询中的第n个字或字母进行编辑;
步骤4,以编辑后获得的字符串作为状态转移条件,基于完成状态队列Cn-1和未完成状态队列NCn-1中的状态进行状态转移,并获得新的状态;
步骤5,判断所述获得新的状态是否为完成状态,如果是,则在该点对查询内容进行一次词语的切分,将所述查询内容切分成多个切分段,并进行纠错尝试,以所述完成状态中对应的词典节点中的词作为该切分段的替代候选词,基于所述建立语言模型更新该状态的概率;
步骤6,记录编辑后的完成状态队列Cn、未完成状态队列NCn,根据语言模型和编辑距离选取最优的N个完成状态和M个未完成状态进行保存并用于第n+1个字的编辑,其中,编辑距离是指两个字符之间,由一个转成另一个所需的最少编辑操作次数;
步骤7,判断第n个字是否为用户查询的最后一个字,如果是则进入步骤8,否则n递增到n+1并跳转至步骤3;
步骤8,选取所述最后一个字的编辑完成后的完成状态,对得到的一组最优侯选状态进行判定,如结果符合对应特征判定规则,则返回纠错结果;否则返回原始查询。
2.根据权利要求1所述的查询纠错方法,其特征在于,所述步骤1中:所述面向混杂语言的异构字符树词典在建立的过程中,处理中文字符时将所述中文字符展开为所述中文字符的拼音字母,以所述拼音字母作为词典树的节点值;处理其他字符时,以所述字符作为词典树的节点值;
所述中文字符和其他字符的词典树根节点到词典树节点的路径若能构成词典中的词或词的拼音扩展形式,则在所述节点中存储所述词典中的词,并标记所述节点为完成节点;否则标记所述节点为未完成节点;
所述语言模型是利用高频或高点击次数的查询文本建立的,且所述语言模型的建立是基于高于F频次或C点击次数的用户查询日志的,针对不同批次的用户查询日志F和C的值将有所不同,所述F和C的值可通过对用户查询日志进行抽样统计而获得。
3.根据权利要求1所述的查询纠错方法,其特征在于,所述步骤3中:所述编辑操作对中文字采取同音匹配、多音匹配、形近字替换、近音替换、删除、前后字交换的中文编辑规则处理,对英文字母则进行匹配、替换、插入、删除、前后字交换的英文编辑规则处理。
4.根据权利要求1所述的查询纠错方法,其特征在于,所述步骤4中:状态转移的过程,包括:
c)根据所述完成状态队列Cn-1和未完成状态队列NCn-1中状态内存储的词典树根节点来寻找编辑后获得的字符串对应的词典树路径,并找到所述编辑后获得的字符串对应的路径终节点;
d)在所述状态队列Cn-1和NCn-1中状态内存储的状态参数的基础上更新本次的编辑操作带来的状态参数。
5.根据权利要求1的查询纠错方法,其特征在于,所述步骤5中,所述完成状态的判断方法是:状态状态转移过程中获得的所述路径终节点是完成节点且所述新的状态的状态类型标记为切分完成态,则所述新的状态为完成状态,否则为未完成状态;
所述切分处理过程是:通过其他状态向完成状态的转换来实现对查询内容的词语切分,并以所述完成状态中完成节点存储的词作为所述切分段的替代候选词,从词典树根节点到所述完成状态中完成节点的路径即为查询中该切分段之前编辑的结果。
6.根据权利要求1所述的查询纠错方法,其特征在于,所述步骤6中:根据对状态参数的综合评判对完成状态队列或未完成状态队列中的状态进行优劣选取。
7.根据权利要求1所述的查询纠错方法,其特征在于,所述步骤8中:判定过程是基于候选状态特征向量的分类,分类过程中采用侯选状态中一种或多种特征实施分类过程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所;人民搜索网络股份公司,未经中国科学院计算技术研究所;人民搜索网络股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210320575.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:车辆用前照灯
- 下一篇:外延材料层的特性测试装置