[发明专利]利用分词过程中识别的新词改善分词性能的方法有效

申请号：	201010588841.0	申请日：	2010-12-15
公开（公告）号：	CN102541865B	公开（公告）日：	2018-07-06
发明（设计）人：	毛新年	申请（专利权）人：	盛乐信息技术（上海）有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	北京辰权知识产权代理有限公司 11619	代理人：	佟林松
地址：	201203 上***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	分词词表动态产生数据库训练过程用户词表知识源
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种利用分词过程中识别的新词改善分词性能的方法；包括：分词数据库的训练过程和利用分词数据库进行分词的过程。本发明无需用户事先给予新词词表，采用在分词过程中动态产生的新词作为新词词表，作为新词知识源来提高分词性能。本发明不需要用户事先提供用户词表，而是利用分词过程中动态产生的新词来改善分词的性能。

技术领域

本发明涉及一种中文分词的方法。

背景技术

中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道，在英文的行文中，单词之间是以空格作为自然分界符的，而中文只是字、句和段能通过明显的分界符来简单划界，唯独词没有一个形式上的分界符，虽然英文也同样存在短语的划分问题，不过在词这一层上，中文比之英文要复杂的多、困难的多。

新词，也就是那些在分词词典中没有收录，但又确实能称为词的那些词。对于搜索引擎来说，分词系统中的新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。

目前分词系统中利用用户提供的新词词表来改善分词的性能，这些新词词表需要用户事先提供给分词系统。分词系统为了提高文本中新词的切分性能，往往需要将新词作为一种知识源提供给分词系统在分词时使用，现有系统在利用新词作为分词知识源时来提高分词性能时，需要用户事先编辑好新词词表，才能交给分词系统使用，这种新词词表的获取非常困难。

发明内容

本发明所要解决的技术问题是提供一种利用分词过程中识别的新词改善分词性能的方法，它可以使用户无需事先给予新词词表，在分词过程中动态产生的新词作为新词词表，改善分词的性能。

为了解决以上技术问题，本发明提供了一种利用分词过程中识别的新词改善分词性能的方法；包括：分词数据库的训练过程和利用分词数据库进行分词的过程，所述分词数据库的训练过程包括以下步骤：

步骤1：从待切分文本中获取基本特征；

步骤2：利用新词词表，获取新词特征；

步骤3：利用训练得到的分词数据库进行分词，如果分词结果中有新词，将该新词加入到新词词表中。

所述利用分词数据库进行分词的步骤包括以下步骤：

步骤1:抽取分词的文本的基本特征,包括抽取一个或多个窗口的字特征；

步骤2：抽取分词的文本的新词特征；

步骤3：对抽取的特征进行训练，得到分词用的数据库。

本发明的有益效果在于：无需用户事先给予新词词表，采用在分词过程中动态产生的新词作为新词词表，作为新词知识源来提高分词性能。本方法不需要用户事先提供用户词表，而是利用分词过程中动态产生的新词来改善分词的性能。

附图说明