[发明专利]一种面向中文搜索引擎混杂语言的查询纠错方法及系统有效

专利信息
申请号: 201210320575.2 申请日: 2012-08-31
公开(公告)号: CN102867040A 公开(公告)日: 2013-01-09
发明(设计)人: 程舒杨;熊锦华;公帅;颛悦;张成;程学旗;廖华明 申请(专利权)人: 中国科学院计算技术研究所;人民搜索网络股份公司
主分类号: G06F17/30 分类号: G06F17/30;G06F17/24;G06F11/07
代理公司: 北京律诚同业知识产权代理有限公司 11006 代理人: 祁建国;梁挥
地址: 100190 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 中文搜索引擎 混杂 语言 查询 纠错 方法 系统
【说明书】:

技术领域

发明属于自然语言处理技术,尤其涉及一种面向中文搜索引擎混杂语言的查询纠错方法及系统。

背景技术

现有的搜索引擎与用户交互的主要方式是由用户输入检索词,搜索引擎针对该检索词给出对应的匹配网页。因而,从用户输入的检索词中正确的理解用户的查询需求是搜索引擎需要不断完善的功能之一。相对于传统的文本,搜索引擎中用户输入的检索词错误概率更高、错误类型更多,这主要是由于搜索引擎用户基数庞大、网络语言新颖多样等原因。据统计,输入英文搜索引擎的查询中有10%-15%含有拼写错误。查询纠错技术是目前已被大多数搜索引擎普遍运用的一项自然语言处理技术,这一技术对于提高用户检索效率和检索结果命中率具有十分重要的意义。

此前,英文查询纠错技术的相关研究主要分为两类:一种是对单词拼写进行纠错,另一种是对用词不当进行纠错。前者主要注重基于编辑距离方程的纠错模型的研究,找出在于一定编辑距离内的最合适的替代单词;后者主要利用Ngram语言模型或朴素贝叶斯分类器来检测上下文中使用不当的单词。

多数的查询纠错方法都是根据正确的词典,基于噪声信道模型,为查询中的每个词条选取N个最优替代词条,统计最可能的概率组合。其中噪声信道模型计算查询中词条的可能替代词条取决于两个概率:一个是从查询中词条转换为其替代词条的可能性,也即为查询中词条到其替代词条的编辑距离;一个是替代词条在上下文语境中出现的可能性,也即为基于统计语言模型计算出的替代词条的出现概率。在查询纠错的过程中,首先,基于正确的词典,对查询中的词条逐个进行一定范围内的编辑,使其成为词典中的某个正确的词条;而后,利用噪声信道模型计算出在给予既定的查询的条件下该正确词条的出现概率,判断是否是最优的替代词条,并保留N个最优替代词条;最后,综合编辑距离和语言模型计算所得的概率,选取最佳的替代词条组合。

在英文查询纠错中,英文有空格作为词与词之间的分隔符,而中文词之间并没有既定的分隔符,要根据词典获取词条一定编辑距离范围内的N个最优候选词,则必须先对查询进行词语的切分。但是由于中文分词是基于语义的,当查询中出现错误时,分词结果往往也是错误的。而且中文搜索引擎的查询中包含汉字、拼音和英文,对查询中拼音片段和英文词片段的切分和纠错,采用传统的分词方法显然是无法完成的。

此前,中文查询纠错技术的研究大多是通过中文模糊音匹配,将中文查询词转换为其模糊音,并通过模糊音匹配找到与其相近的候选,并输出正确集合中存在的候选词。这种方案无法处理正确集合以外的中文查询错误,而且对中文搜索引擎中英文、拼音和中文共存的情况无法处理。

由于中文搜索引擎混杂语言查询的特点,英文查询纠错方法或简单的模糊音匹配的中文查询纠错方法都不能适用于中文搜索引擎的查询纠错。在中文搜索引擎的查询中,中文的错误类型主要为同音别字、近音别字、形近别字、汉字误写为拼音、前后字位置颠倒、多字漏字等;而英文的错误类型主要为单词中字母缺失、字母写错、字母多余、缺少空格、前后字位置颠倒等。与现有的方法相比,本发明针对中文搜索引擎查询的特点,构建面向混杂语言的异构字符树词典,使得查询纠错中对字符的处理变得简易,无需考虑英文字母的组合是拼音还是英文单词,无需显性的对拼音进行切分,而只需顺序的对查询中的字或字母进行编辑处理即可;利用高频或高点击次数的查询文本建立语言模型,使得纠错结果更符合用户的需求;在查询纠错的过程中,对用户的查询进行同步切分和纠错尝试,利用状态之间的转移达到对查询进行切分的目的;采用双队列记录每一步编辑后最优的N个完成状态和M个未完成状态,在保障纠错速度的同时获取最佳的切分方式和对应的替代词条组合;并利用最终纠错结果侯选集的特征进行判定,输出符合限定条件的纠错结果,有效地提高了准确率。

发明内容

为解决上述的技术问题,本发明提出了面向混杂语言的异构字符树词典、基于高频或高点击次数的查询构建的语言模型、中英文字编辑过程中的不同处理方式以及查询同步切分和纠错尝试等方法,从而实现了对中文搜索引擎查询中多种错误类型的处理,并有效地提高了查询纠错的准确率。

为达到以上目的而提供的一种面向中文搜索引擎混杂语言的查询纠错方法,其特征在于,包括:

步骤1,构建面向混杂语言的异构字符树词典,建立语言模型;

步骤2,获取用户查询的内容,初始化n=1,建立两个空的查询处理队列,分别为完成状态队列Cn和未完成状态队列NCn

步骤3,对所述用户查询中的第n个字或字母进行编辑;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所;人民搜索网络股份公司,未经中国科学院计算技术研究所;人民搜索网络股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210320575.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top