[发明专利]适用于中文词库的分词歧义排除方法在审

专利信息
申请号: 201210414877.6 申请日: 2012-10-26
公开(公告)号: CN103778161A 公开(公告)日: 2014-05-07
发明(设计)人: 王专;吴志祥;张海龙;马和平;吴剑;郭凤林;王晓钟;庞绍进 申请(专利权)人: 同程网络科技股份有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 南京苏科专利代理有限责任公司 32102 代理人: 陈忠辉
地址: 215021 江苏省苏州*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 适用于 中文 词库 分词 歧义 排除 方法
【说明书】:

技术领域

发明涉及一种分词歧义排除方法,尤其涉及一种,属于适用于中文词库的分词歧义排除方法。

背景技术

信息的快速增长,人们想准确找到对自己有用的信息变得很困难,使搜索引擎成为人们查找信息的首选工具,谷歌、百度是大家共知的全文搜索引擎。随着搜索市场价值的不断增加,人们对信息准确性、实用性的要求越来越高,全文搜索引擎已经不能满足人们的需求,随之而来的垂直搜索引擎越来越受到人们的喜爱,垂直搜索专注于特定的搜索领域和搜索需求(例如:酒店搜索、旅游搜索、火车票搜索等等),在其特定的搜索领域有更好的用户体验。垂直搜索需要的硬件成本低、用户需求特定、查询的方式多样。目前在中文搜索引擎领域,国内的搜索引擎已经和国外的搜索引擎效果上相差不远。之所以能形成这样的局面,有一个重要的原因就在于中文和英文两种语言自身的书写方式不同,这其中对于计算机涉及的就是中文分词技术。

什么是中文分词

英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词。我是一个学生,分词的结果是:我/是/一个/学生。 

中文分词和搜索引擎:中文分词到底对搜索引擎有多大影响?对于搜索引擎来说,最重要的并不是找到所有结果,因为在大数据量下面所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面,展示给用户,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。

中文分词技术:中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。

现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

1、基于字符串匹配的分词方法:这种方法又叫做机械分词方法,它是按照一定的策略将要分析的汉字串与一个“充分大的”机器词库中的词条进行匹配,若在词库中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配。常用的几种机械分词方法如下:

1)正向最大匹配法(由左到右的方向);

2)逆向最大匹配法(由右到左的方向);

3)最少切分(使每一句中切出的词数最小)。

2、基于理解的分词方法:这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。

3、基于统计的分词方法:词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词库,因而又叫做无词库分词法或统计取词方法。       

分词中的难题

1、歧义识别

歧义是指同样的一句话,可能有两种或者更多的切分方法。例如:表面的,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面 的”和“表 面的”。这种称为交叉歧义。

交叉歧义相对组合歧义来说是还算比较容易处理,组合歧义就必需根据整个句子来判断了。例如,在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词;在句子 “将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”就不再是词。这些词计算机又如何去识别,

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同程网络科技股份有限公司,未经同程网络科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210414877.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top