[发明专利]中文人名自动识别方法无效

申请号：	201010233653.6	申请日：	2010-07-22
公开（公告）号：	CN102339286A	公开（公告）日：	2012-02-01
发明（设计）人：	陈运文;马飞涛;宋海涛	申请（专利权）人：	盛乐信息技术(上海)有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	上海浦一知识产权代理有限公司 31211	代理人：	丁纪铁
地址：	201203 上***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	中文人名自动识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种中文信息的检索方法，特别是涉及一种中文人名的识别方法。

背景技术

人名是日常生活中接触最多的专用名词，在信息检索时人名要作为一个整体才能得到准确的检索结果。以人名“曹国伟”为例，如果检索系统将其切分为三个单字“曹”、“国”、“伟”，即没有将中文人名正确识别出来，则会检索出错误结果例如“中国发明专利，发明人：曹庆芬、府伟江”。

实现中文人名自动识别具有几大难点：

其一，中文人名的组合极多，无法直接使用辞典进行机械切分。一方面难以构建一个穷尽所有中文人名的辞典。另一方面，构建辞典会出现矛盾的情形。例如，如果将人名“王军虎”添加到辞典中，则在句子“王军虎头虎脑的”中，会错误地将“王军虎”识别为人名。

其二，中文人名存在单姓、复姓的情况，还具有二字人名、三字人名、四字人名等多种情况。

其三，中文人名可能会和前后文字形成歧义组合，给人名的正确识别带来障碍。例如“陈晓东北京演唱会”这句话中出现了“东北“一词，在人名识别时很容易被错误识别为“陈晓/东北”。

发明内容

本发明所要解决的技术问题是提供一种中文人名的自动识别方法，可以较为准确地识别出中文人名。

为解决上述技术问题，本发明中文人名自动识别方法包括如下步骤：

第1步，对已注明中文人名的文字材料进行统计；

第2步，对待识别中文人名的文字材料进行中文人名的识别；

所述方法第1步具体包括如下步骤：

第1.1步，在已注明中文人名的文字材料中，将单字划分为以下四种类型，所述单字为单个汉字；

——H1类型，出现在中文人名第一个字的位置；

——M1类型，出现在中文人名中间位置；

——T1类型，出现在中文人名最后一个字的位置；

——N1类型，出现在除中文人名以外的位置；

将双字划分为以下四种类型，所述双字为连续的两个汉字；

——H2类型，出现在中文人名前两个字的位置且为复姓；

——HM2类型，出现在中文人名前两个字的位置且不为复姓；

——MT2类型，出现在三字非复姓人名或四字复姓人名后两个字的位置；

——N2类型，出现在除中文人名以外的位置；

第1.2步，在已注明中文人名的文字材料中：

统计H1、M1、T1、N1四种类型的不重复的单字数量，分别记为nh1、nm1、nt1、nn1；

统计H2、HM2、MT2、N2四种类型的不重复的双字数量，分别记为nh2、nhm2、nmt2、nn2；

统计每个单字出现的总次数记为z1；统计每个单字出现在H1、M1、T1、N1四种类型的次数，分别记为h1、m1、t1、n1；

统计每个双字出现的总次数记为z2；统计每个双字属于H2、HM2、MT2、N2四种类型的次数，分别记为h2、hm2、mt2、n2；

第1.3步，在已注明中文人名的文字材料中：

计算每个单字S_i出现的概率

计算每个双字D_i出现的概率

计算每个单字S_i属于H1类型的概率计算每个单字S_i属于M1类型的概率计算每个单字S_i属于T1类型的概率计算每个单字S_i属于N1类型的概率

计算每个双字D_i属于H2类型的概率计算每个双字D_i属于HM2类型的概率计算每个双字D_i属于MT2类型的概率计算每个双字D_i属于N2类型的概率

第1.4步，在已注明中文人名的文字材料中：

计算H1类型中每个单字S_i的出现概率

计算M1类型中每个单字S_i的出现概率

计算T1类型中每个单字S_i的出现概率

计算N1类型中每个单字S_i的出现概率

计算H2类型中每个双字D_i的出现概率

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于盛乐信息技术(上海)有限公司，未经盛乐信息技术(上海)有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201010233653.6/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]中文人名自动识别方法无效

专利文献下载