[发明专利]分词方法及分词器、命名实体识别方法及系统在审

申请号：	201910978522.1	申请日：	2019-10-15
公开（公告）号：	CN110750993A	公开（公告）日：	2020-02-04
发明（设计）人：	张发展;刘世林;罗镇权;李焕;曾途;尹康;杨李伟;吴桐	申请（专利权）人：	成都数联铭品科技有限公司
主分类号：	G06F40/295	分类号：	G06F40/295;G06F40/242;G06F40/216
代理公司：	11590 北京市领专知识产权代理有限公司	代理人：	林辉轮;张玲
地址：	610015 四川省成都市自由贸易试验区***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	分词登录词频有向无环图单独处理动态规划命名实体语句生成重新组合最大概率分词器前缀树分割构建语句扫描查找
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种分词方法及分词器、命名实体识别方法及系统，所述分词方法包括步骤：构建词典；基于所述词典将待分词语句生成前缀树并进行词图扫描，生成所有可能成词情况所构成的有向无环图；采用动态规划查找最大概率路径,找出基于词频的最大切分组合；对于待分词语句中不存在于所述词典中的未登录词，按照字符进行分词，将未登录词分割为若干个字。本发明方法中，将未登录词单独处理分割为单个字，而不是分成词，因此可以避免未登录名被分词后与前后文词重新组合，继而可以提高未登录名的识别准确性。

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种分词方法及分词器、命名实体识别方法及系统。

背景技术

自然语言处理(NLP)是计算机科学领域与人工智能领域中的一个重要方向，通常包括语句分类、信息抽取、自动摘要、实体识别等分支。

分词作为自然语言处理技术的基础，是指将连续的字符序列按照一定的规范分割合成词序列的过程。英文在书写时通过空格对词汇进行分割，因此可以直接根据空格对其进行分词，而中文通常可以根据特殊符号对字、句和段落进行分割，但是对词没有一个形式上的分隔符。因此，中文分词相比英文分词，会更有难度。

当前的分词技术通常包括基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。这些分词方法的一个共同特性就是尽可能的将一个语句分成更多的词，这样就导致在分词的过程中，难免产生分词错误的现象，特别是针对一些未登录词(即未在词典中出现的词)，而分词的错误会进一步对后续NLP任务产生影响，例如会导致命名实体识别应用中不能准确地识别出命名实体。

发明内容

本发明的目的在于改善现有技术中所存在的分词准确性不高的不足，提供一种分词方法及分词器，以及应用该分词方法的命名实体识别方法及系统，以提高分词结果的准确性。

为了实现上述发明目的，本发明实施例提供了以下技术方案：

一种分词方法，包括以下步骤：

构建词典；

基于所述词典，将待分词语句生成前缀树，进行词图扫描，生成所有可能成词情况所构成的有向无环图；

采用动态规划查找最大概率路径方法,找出基于词频的最大切分组合；

对于待分词语句中不存在于所述词典中的未登录词，按照字符进行分词，将未登录词分割为若干个字。

另一方面，本发明实施例提供了一种分词器，包括词典构建模块、有向无环图生成模块、切分组合模块和字符分割模块；其中，

所述词典构建模块用于构建词典；

所述有向无环图生成模块用于基于所述词典，将待分词语句生成前缀树并进行词图扫描，生成所有可能成词情况所构成的有向无环图；

所述切分组合模块用于采用动态规划查找最大概率路径方法,找出基于词频的最大切分组合；