[发明专利]用于搜索引擎的分词处理方法和装置无效
申请号: | 201110378434.1 | 申请日: | 2011-11-24 |
公开(公告)号: | CN102402502A | 公开(公告)日: | 2012-04-04 |
发明(设计)人: | 李理 | 申请(专利权)人: | 北京趣拿信息技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 刘芳 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 搜索引擎 分词 处理 方法 装置 | ||
技术领域
本发明涉及中文分词技术,尤其涉及一种用于搜索引擎的分词处理方法和装置。
背景技术
搜索引擎中使用的中文分词,是指一个汉字序列切分成一个一个单独的词,分词是一个将连续的子序列按照已规定的规范重新组合成词序列的过程。
现有技术中在进行中文分词时,通常是根据人工或者半人工的方式获取分词词典,该分词词典为一数据库,数据库中定义了大量的词组,在搜索引擎进行分词时,首先根据分词词典,对预搜索的语句按照最大正向匹配方式或最大逆向匹配方式进行分词,其中最大正向匹配方法是指按照从前到后的顺序从预搜索的语句中查询与词典中匹配的词组,最大逆向匹配方法是指按照从后到前的顺序从预搜索的语句中查询与词典中匹配的词组。另外,还可以一种技术方案可以根据图搜索的方法进行分词处理。
上述利用最大正向匹配方法和最大逆向匹配方法进行分词的过程中,可能出现对某一字段存在两种不同的分词结果的情况,无法确认正确的分词结果,即发生分词歧义,对于图搜索模式也会发生上述的分词歧义。
综上所述,对于现有技术中基于词典的分词方法,其无法消除分词歧义。
发明内容
本发明的第一个方面是提供一种用于搜索引擎的分词处理方法,包括:
获取用户输入的目标分词语句;
根据预先存储的分词词典对所述目标分词语句进行分词;
在确认出现分词歧义字段时,所述分词歧义字段被识别为具有两种以上的分词方式,调用预先建立的分词统计模型,并选择所述分词歧义字段在所述分词统计模型中具有最高概率的分词方式进行分词。
本发明的另一个方面是提供一种用于搜索引擎的分词处理装置,包括:
第一获取模块,用于获取用户输入的目标分词语句;
第一分词模块,用于根据预先存储的分词词典对所述目标分词语句进行分词;
第二分词模块,用于在确认出现分词歧义字段时,所述分词歧义字段被识别为具有两种以上的分词方式,调用预先建立的分词统计模型,并选择所述分词歧义字段在所述分词统计模型中具有最高概率的分词方式进行分词。
本发明提供的技术方案,其首先通过利用分词词典对目标分词语句进行分词,并在出现分词歧义字段时,分词歧义字段被识别为具有两种以上的分词方式,调用预先建立的分词统计模型,并选择所述分词歧义字段在所述分词统计模型中具有最高概率的分词方式进行分词。该技术方案能够实现对分词歧义字段进行分词处理,并根据上述消除歧义的分词方法,能够进一步提高利用搜索引擎进行检索的准确率和覆盖率。
附图说明
图1为本发明实施例中用于搜索引擎的分词处理方法的流程示意图;
图2为本发明一具体实施例的流程示意图;
图3为本发明实施例中用于搜索引擎的分词处理装置的结构示意图。
具体实施方式
针对现有技术中,基于词典的分词方法无法消除分词歧义的缺陷,本发明实施例提供了一种用于搜索引擎的分词处理方法。
图1为本发明实施例中用于搜索引擎的分词处理方法的流程示意图,如图1所示,该方法包括如下的步骤:
步骤101、获取用户输入的目标分词语句;
步骤102、根据预先存储的分词词典对所述目标分词语句进行分词;
步骤103、在确认出现分词歧义字段时,所述分词歧义字段被识别为具有两种以上的分词方式,调用预先建立的分词统计模型,并选择所述分词歧义字段在所述分词统计模型中具有最高概率的分词方式进行分词。
本发明上述实施例中提供的用于搜索引擎的分词处理方法,首先按照基于词典的方法进行分词处理,并在出现分词歧义字段时,调用预先建立的分词统计模型,选择分词歧义字段在所述分词统计模型中具有最高概率的分词方式进行分词,进而实现对分词歧义字段进行分词处理,根据上述消除歧义的分词方法,能够进一步提高利用搜索引擎进行检索的准确率和覆盖率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京趣拿信息技术有限公司,未经北京趣拿信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110378434.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:接线柱
- 下一篇:带状线射频部件及其封装结构