[发明专利]自定义词管理装置、方法及分词系统有效
申请号: | 200810090462.1 | 申请日: | 2008-04-16 |
公开(公告)号: | CN101256557A | 公开(公告)日: | 2008-09-03 |
发明(设计)人: | 朱鉴;李珩 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/28;G06F17/30 |
代理公司: | 北京德琦知识产权代理有限公司 | 代理人: | 罗正云;宋志强 |
地址: | 518044广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自定义 管理 装置 方法 分词 系统 | ||
技术领域
本发明涉及中文信息处理技术领域,特别涉及一种自定义词管理装置、方法及分词系统。
背景技术
中文信息处理技术现已在计算机网络、数据库技术、软件工程等领域得到了广泛应用,而中文分词是中文信息处理的一项重要的基础性工作,在许多中文信息处理项目(例如:机器翻译、自动文摘、自动分类、文献库全文检索、搜索引擎等)中都会涉及到中文分词问题。
众所周知,英文是以词为单位的,词和词之间有空格隔开。例如,英文句子:I am a student(我是一个学生)。计算机可以很简单地通过空格知道student(学生)是一个单词。然而,中文是以字为单位的,所有字连起来才能描述一个意思,句子中的字和字之间没有类似空格这样的分割标记。例如,中文句子:我是一个学生。计算机就很难明白“学”、“生”两个字合起来才表示一个词。因此,在中文文本处理中,首先需要解决的问题是对文中每个句子进行中文分词(也称切词),即为句中的每个词增加一个词界标记。例如,对上面中文句子的分词的结果是:“我”“是”“一个”“学生”。
参见图1,图1为现有技术中中文分词方法的流程示意图。由图1可见,该方法包括:
步骤101、生成自定义词典。
现有的自定义词典一般为一个单独的文本文件,在该文件的每行中存储了一个用户添加的自定义词。在收录自定义时,通常可以采用机器学习的方法训练得到,如互信息或基于字标注的最大熵、条件随机场等方法;也可以采用人工添加自定义词的方法得到。
步骤102、利用自定义词典进行中文分词。
按照一定的策略将待识别的中文文本切分为汉字串,并将自定义词典中所有自定义词加载到内存中,将上述汉字串与上述自定义词典中的自定义词逐个进行匹配,若在词典中找到相应自定义词,则匹配成功,从而识别出一个词。
显然,采用上述方法保证了待识别的中文文本中包含有词典中自定义词时的中文分词情况。但是,由于现有技术的自定义词典中只是机械地存储了自定义词本身,这就存在一个问题:用户利用自定义词进行中文分词时的准确性不高。
具体来说,存储在词典中的某个自定义词可能在某个体裁的语境中应该被作为一个整体切出,而在另一个体裁的语境中,就不应该被作为一个整体切出。例如:人可以很容易理解句子“马晓虎去北京玩了”中的“马晓虎”是一个词,即一个人的名字,但要是让计算机去识别就困难了。这时如果把“马晓虎”作为一个自定义词收录到词典中了。那么在另一句子“马晓虎头虎脑的”中“马晓虎”就会被错误地作为一个整体切出。
显然,本领域技术人员可以领会到上述对中文分词的分析,也适用于例如韩文、日文等其他类似语言的分词过程中。
发明内容
有鉴于此,本发明的实施例提供了自定义词管理装置、方法及分词系统,解决了用户利用自定义词进行分词时的准确性不高的问题。
根据本发明一个实施例的一种自定义词管理装置,包括:
接收模块,用于接收用户输入的自定义词及其属性;
词典生成模块,用于根据所述自定义词及其属性,生成自定义词典;
词典加载模块,用于将所述自定义词典中的自定义词及其属性加载到内存中,等待调用。
根据本发明另一实施例的一种自定义词管理方法,包括:
接收用户输入的自定义词及其属性;
根据所述自定义词及其属性,生成自定义词典;
将所述自定义词典中的自定义词及其属性加载到内存中,等待调用。
根据本发明又一实施例的一种分词系统,包括:
自定义词管理装置,用于接收用户输入的自定义词及其属性,根据所述自定义词及其属性生成自定义词典,并将所述自定义词典中的自定义词及其属性加载到内存中;
分词装置,用于利用加载在内存中的自定义词及其属性,对待识别文本进行分词,匹配所述待识别文本中的自定义词,并为所述匹配成功的自定义词进行属性标注。
由上述的技术方案可见,相比现有技术,本发明实施例提供的自定义词管理装置、方法及分词系统,可以接收用户输入的自定义词及其属性,根据上述自定义词及其属性生成自定义词典,并将上述自定义词典中的自定义词及其属性加载到内存中,等待调用。利用本发明实施例提供的自定义词典进行分词时,除了可以提供用户输入的自定义词本身外,还可以提供该自定义词的相关属性。这样就可以在将来进行分词校验时进一步对自定义词的属性进行判断,从而确定在当时的特定语境中该分词方式是否正确。因此,本发明解决了用户利用自定义词进行分词时的准确性不高的问题。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810090462.1/2.html,转载请声明来源钻瓜专利网。