[发明专利]一种提取中文人名地名的方法及装置有效

申请号：	201510951906.6	申请日：	2015-12-17
公开（公告）号：	CN105573981B	公开（公告）日：	2018-09-07
发明（设计）人：	陈泽青;苏再添;吴少华	申请（专利权）人：	厦门市美亚柏科信息股份有限公司
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	厦门市精诚新创知识产权代理有限公司 35218	代理人：	何家富
地址：	361000 福建省厦门市***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明属于计算机语言学中的自然语言处理领域，具体涉及一种提取中文人名地名的方法及装置。该方法包括以下步骤S1，将文本转换为UTF‑8编码格式；S2，预设文本阈值L，判断文本长度T是否大于阈值L，如果T大于L，则采用延伸分段法将文本分段，分段后转到步骤S3，如果T小于等于L，则转到步骤S3；S3，对本文进行预处理去除脏数据；S4，对预处理后文本中的中文单字进行词性标注，并将标注后的单字进行分词组词；S5，将文本中与目标词组匹配的词组标记出来，并统计匹配结果。本发明能够广泛应用于搜索引擎、机器翻译、数据挖掘等领域中命名实体的识别。
搜索关键词：	一种提取中文人名地名方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种提取中文人名地名的方法，其特征在于：它包括以下步骤，S1，将文本转换为UTF‑8编码格式；S2，预设文本阈值L，判断文本长度T是否大于阈值L，如果T大于L，则采用延伸分段法将文本分段，分段后转到步骤S3，如果T小于等于L，则转到步骤S3；所述延伸分段法为：将文本按照L长度设置偏移,确定右邻边界字符的二进制编码:T(L+n)，其中n＝0,1,2,3,4；S201，初始化n为0；S202，计算三项中的其中一项成立，则转到步骤S204，三项均不成立，则进入步骤S203；S203，n＝n+1，转到步骤S202，当n大于4时，转到步骤S204；S204，将文本按照L+n的长度进行分段；S3，对文本进行预处理去除脏数据，所述脏数据包括符号、字母、数字、空格中的一种或几种；S4，对预处理后文本中的中文单字进行词性标注，并将标注后的单字进行分词组词；S5，将文本中与目标词组匹配的词组标记出来，并统计匹配结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于厦门市美亚柏科信息股份有限公司，未经厦门市美亚柏科信息股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201510951906.6/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种提取中文人名地名的方法及装置有效

专利文献下载