[发明专利]用于搜索引擎的分词处理方法和装置无效
申请号: | 201110378434.1 | 申请日: | 2011-11-24 |
公开(公告)号: | CN102402502A | 公开(公告)日: | 2012-04-04 |
发明(设计)人: | 李理 | 申请(专利权)人: | 北京趣拿信息技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 刘芳 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 搜索引擎 分词 处理 方法 装置 | ||
1.一种用于搜索引擎的分词处理方法,其特征在于,包括:
获取用户输入的目标分词语句;
根据预先存储的分词词典对所述目标分词语句进行分词;
在确认出现分词歧义字段时,所述分词歧义字段被识别为具有两种以上的分词方式,调用预先建立的分词统计模型,并选择所述分词歧义字段在所述分词统计模型中具有最高概率的分词方式进行分词。
2.根据权利要求1所述的用于搜索引擎的分词处理方法,其特征在于,所述根据预先存储的分词词典对所述目标分词语句进行分词包括:
根据预先存储的分词词典,按照最大正向匹配方法和最大逆向匹配方法对所述目标分词语句进行分词;或
根据预先存储的分词词典,按照图搜索方法对所述目标分词语句进行分词。
3.根据权利要求1或2所述的用于搜索引擎的分词处理方法,其特征在于,所述预先建立的分词统计模型包括用于标识分词歧义字段的每种分词方式的特征向量,以及统计获得的所述每种分词方式的特征向量对应的概率值。
4.根据权利要求3所述的用于搜索引擎的分词处理方法,其特征在于,在所述分词统计模型中,所述分词歧义字段中的每个字被定义为单字词类型、词首类型、词尾类型、第二位置词类型、第三位置词类型或其他位置词类型中的一种,所述每种分词方式的特征向量包括分词歧义字段中的所有字的类型,以及所有字的排列顺序。
5.根据权利要求4所述的用于搜索引擎的分词处理方法,其特征在于,所述调用预先建立的分词统计模型,并选择所述分词歧义字段在所述分词统计模型中具有最高概率的分词方式进行分词包括:
建立该分词歧义字段的两种以上的分词方式各自对应的特征向量,获取分词统计模型两种以上的分词方式各自对应的特征向量的概率,选择概率最大的分词方式进行分词。
6.一种用于搜索引擎的分词处理装置,其特征在于,包括:
第一获取模块,用于获取用户输入的目标分词语句;
第一分词模块,用于根据预先存储的分词词典对所述目标分词语句进行分词;
第二分词模块,用于在确认出现分词歧义字段时,所述分词歧义字段被识别为具有两种以上的分词方式,调用预先建立的分词统计模型,并选择所述分词歧义字段在所述分词统计模型中具有最高概率的分词方式进行分词。
7.根据权利要求6所述的用于搜索引擎的分词处理装置,其特征在于,所述第一分词模块包括:
第一分词单元,用于根据预先存储的分词词典,按照最大正向匹配方法和最大逆向匹配方法对所述目标分词语句进行分词;或
第二分词单元,用于根据预先存储的分词词典,按照图搜索方法对所述目标分词语句进行分词。
8.根据权利要求6或7所述的用于搜索引擎的分词处理装置,其特征在于,所述预先建立的分词统计模型包括用于标识分词歧义字段的每种分词方式的特征向量,以及统计获得的所述每种分词方式的特征向量对应的概率值。
9.根据权利要求8所述的用于搜索引擎的分词处理装置,其特征在于,在所述分词统计模型中,所述分词歧义字段中的每个字被定义为单字词类型、词首类型、词尾类型、第二位置词类型、第三位置词类型或其他位置词类型中的一种,所述每种分词方式的特征向量包括分词歧义字段中的所有字的类型,以及所有字的排列顺序。
10.根据权利要求9所述的用于搜索引擎的分词处理装置,其特征在于,所述第二分词模块具体用于建立该分词歧义字段的两种以上的分词方式各自对应的特征向量,获取分词统计模型两种以上的分词方式各自对应的特征向量的概率,选择概率最大的分词方式进行分词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京趣拿信息技术有限公司,未经北京趣拿信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110378434.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:接线柱
- 下一篇:带状线射频部件及其封装结构