[发明专利]一种提取中文人名地名的方法及装置有效

申请号：	201510951906.6	申请日：	2015-12-17
公开（公告）号：	CN105573981B	公开（公告）日：	2018-09-07
发明（设计）人：	陈泽青;苏再添;吴少华	申请（专利权）人：	厦门市美亚柏科信息股份有限公司
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	厦门市精诚新创知识产权代理有限公司 35218	代理人：	何家富
地址：	361000 福建省厦门市***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种提取中文人名地名方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明属于计算机语言学中的自然语言处理领域，具体涉及一种提取中文人名地名的方法及装置。该方法包括以下步骤S1，将文本转换为UTF‑8编码格式；S2，预设文本阈值L，判断文本长度T是否大于阈值L，如果T大于L，则采用延伸分段法将文本分段，分段后转到步骤S3，如果T小于等于L，则转到步骤S3；S3，对本文进行预处理去除脏数据；S4，对预处理后文本中的中文单字进行词性标注，并将标注后的单字进行分词组词；S5，将文本中与目标词组匹配的词组标记出来，并统计匹配结果。本发明能够广泛应用于搜索引擎、机器翻译、数据挖掘等领域中命名实体的识别。

技术领域

本发明属于计算机语言学中的自然语言处理领域，具体涉及一种提取中文人名地名的方法及装置。

背景技术

随着时代的变迁，信息呈现出爆炸性的增长，为了从海量的数据中提取中有用的信息，各领域都在大力研究相关的技术，中文人名及地名的提取就是其中的一部分，也是电子数据取证分析的一个热点，由于中文本身的复杂性和多义性，中文人名及地名的提取研究要落后于英文很多。

参考专利文献CN104182423A公开了一种基于条件随机场的中文人名自动识别方法，通过对中文人名特征的研究，结合统计学的概率模型，构建出中文人名自动识别系统。参考专利文献CN103870489A公开了一种基于搜索日志的中文人名自扩展识别方法，利用搜索日志本身特点构建种子人名、生成人名模板，根据人名上下文在对应查询串及整个搜索日志查询串的变化趋势，过滤人名模板，降低了人名识别时的噪音信息，提高了搜索日志中人名识别率。

目前中文人名地名提取方式主要包含两种：

1.基于规则的方法，此类方法为找出人名地名的构成规则，依据构成规则与样本数据进行匹配，优点在于效率高，匹配速度快，但是也存在着很明显的缺点:覆盖面需不断完善定义，对于歧义词，生词识别率较低，标注准确率低。

2.基于统计的方法，目前自然语言处理技术的主流方向，对于歧义词和生词识别的效果较好，可以用于识别人名地名以及组织机构名称等。

发明内容

针对传统的中文人名地名的提取方式对于中文人名地名的识别率低，且占用内存高，速度较慢，无法应用于实际生产环境中。本发明提出了一种提取中文人名地名的方法，该方法通过去除脏数据，并行分析处理，数据分段的方法，使得内存占用减少，速度提升，且识别的结果准确性显著提高。

本发明采用如下技术方案：

一种提取中文人名地名的方法，它包括以下步骤，

S1，将文本转换为UTF-8编码格式；

S2，预设文本阈值L，判断文本长度T是否大于阈值L，如果T大于L，则采用延伸分段法将文本分段，分段后转到步骤S3，如果T小于等于L，则转到步骤S3；

S3，对本文进行预处理去除脏数据；

S4，对预处理后文本中的中文单字进行词性标注，并将标注后的单字进行分词组词；

S5，将文本中与目标词组匹配的词组标记出来，并统计匹配结果。