[发明专利]一种提取中文人名地名的方法及装置有效
申请号: | 201510951906.6 | 申请日: | 2015-12-17 |
公开(公告)号: | CN105573981B | 公开(公告)日: | 2018-09-07 |
发明(设计)人: | 陈泽青;苏再添;吴少华 | 申请(专利权)人: | 厦门市美亚柏科信息股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 厦门市精诚新创知识产权代理有限公司 35218 | 代理人: | 何家富 |
地址: | 361000 福建省厦门市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于计算机语言学中的自然语言处理领域,具体涉及一种提取中文人名地名的方法及装置。该方法包括以下步骤S1,将文本转换为UTF‑8编码格式;S2,预设文本阈值L,判断文本长度T是否大于阈值L,如果T大于L,则采用延伸分段法将文本分段,分段后转到步骤S3,如果T小于等于L,则转到步骤S3;S3,对本文进行预处理去除脏数据;S4,对预处理后文本中的中文单字进行词性标注,并将标注后的单字进行分词组词;S5,将文本中与目标词组匹配的词组标记出来,并统计匹配结果。本发明能够广泛应用于搜索引擎、机器翻译、数据挖掘等领域中命名实体的识别。 | ||
搜索关键词: | 一种 提取 中文 人名 地名 方法 装置 | ||
【主权项】:
1.一种提取中文人名地名的方法,其特征在于:它包括以下步骤,S1,将文本转换为UTF‑8编码格式;S2,预设文本阈值L,判断文本长度T是否大于阈值L,如果T大于L,则采用延伸分段法将文本分段,分段后转到步骤S3,如果T小于等于L,则转到步骤S3;所述延伸分段法为:将文本按照L长度设置偏移,确定右邻边界字符的二进制编码:T(L+n),其中n=0,1,2,3,4;S201,初始化n为0;S202,计算
三项中的其中一项成立,则转到步骤S204,三项均不成立,则进入步骤S203;S203,n=n+1,转到步骤S202,当n大于4时,转到步骤S204;S204,将文本按照L+n的长度进行分段;S3,对文本进行预处理去除脏数据,所述脏数据包括符号、字母、数字、空格中的一种或几种;S4,对预处理后文本中的中文单字进行词性标注,并将标注后的单字进行分词组词;S5,将文本中与目标词组匹配的词组标记出来,并统计匹配结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门市美亚柏科信息股份有限公司,未经厦门市美亚柏科信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510951906.6/,转载请声明来源钻瓜专利网。
- 上一篇:一种查询参数处理方法及装置
- 下一篇:短信文本信息处理方法以及装置