[发明专利]中文人名自动识别方法无效
申请号: | 201010233653.6 | 申请日: | 2010-07-22 |
公开(公告)号: | CN102339286A | 公开(公告)日: | 2012-02-01 |
发明(设计)人: | 陈运文;马飞涛;宋海涛 | 申请(专利权)人: | 盛乐信息技术(上海)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海浦一知识产权代理有限公司 31211 | 代理人: | 丁纪铁 |
地址: | 201203 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中文 人名 自动识别 方法 | ||
技术领域
本发明涉及一种中文信息的检索方法,特别是涉及一种中文人名的识别方法。
背景技术
人名是日常生活中接触最多的专用名词,在信息检索时人名要作为一个整体才能得到准确的检索结果。以人名“曹国伟”为例,如果检索系统将其切分为三个单字“曹”、“国”、“伟”,即没有将中文人名正确识别出来,则会检索出错误结果例如“中国发明专利,发明人:曹庆芬、府伟江”。
实现中文人名自动识别具有几大难点:
其一,中文人名的组合极多,无法直接使用辞典进行机械切分。一方面难以构建一个穷尽所有中文人名的辞典。另一方面,构建辞典会出现矛盾的情形。例如,如果将人名“王军虎”添加到辞典中,则在句子“王军虎头虎脑的”中,会错误地将“王军虎”识别为人名。
其二,中文人名存在单姓、复姓的情况,还具有二字人名、三字人名、四字人名等多种情况。
其三,中文人名可能会和前后文字形成歧义组合,给人名的正确识别带来障碍。例如“陈晓东北京演唱会”这句话中出现了“东北“一词,在人名识别时很容易被错误识别为“陈晓/东北”。
发明内容
本发明所要解决的技术问题是提供一种中文人名的自动识别方法,可以较为准确地识别出中文人名。
为解决上述技术问题,本发明中文人名自动识别方法包括如下步骤:
第1步,对已注明中文人名的文字材料进行统计;
第2步,对待识别中文人名的文字材料进行中文人名的识别;
所述方法第1步具体包括如下步骤:
第1.1步,在已注明中文人名的文字材料中,将单字划分为以下四种类型,所述单字为单个汉字;
——H1类型,出现在中文人名第一个字的位置;
——M1类型,出现在中文人名中间位置;
——T1类型,出现在中文人名最后一个字的位置;
——N1类型,出现在除中文人名以外的位置;
将双字划分为以下四种类型,所述双字为连续的两个汉字;
——H2类型,出现在中文人名前两个字的位置且为复姓;
——HM2类型,出现在中文人名前两个字的位置且不为复姓;
——MT2类型,出现在三字非复姓人名或四字复姓人名后两个字的位置;
——N2类型,出现在除中文人名以外的位置;
第1.2步,在已注明中文人名的文字材料中:
统计H1、M1、T1、N1四种类型的不重复的单字数量,分别记为nh1、nm1、nt1、nn1;
统计H2、HM2、MT2、N2四种类型的不重复的双字数量,分别记为nh2、nhm2、nmt2、nn2;
统计每个单字出现的总次数记为z1;统计每个单字出现在H1、M1、T1、N1四种类型的次数,分别记为h1、m1、t1、n1;
统计每个双字出现的总次数记为z2;统计每个双字属于H2、HM2、MT2、N2四种类型的次数,分别记为h2、hm2、mt2、n2;
第1.3步,在已注明中文人名的文字材料中:
计算每个单字Si出现的概率
计算每个双字Di出现的概率
计算每个单字Si属于H1类型的概率计算每个单字Si属于M1类型的概率计算每个单字Si属于T1类型的概率计算每个单字Si属于N1类型的概率
计算每个双字Di属于H2类型的概率计算每个双字Di属于HM2类型的概率计算每个双字Di属于MT2类型的概率计算每个双字Di属于N2类型的概率
第1.4步,在已注明中文人名的文字材料中:
计算H1类型中每个单字Si的出现概率
计算M1类型中每个单字Si的出现概率
计算T1类型中每个单字Si的出现概率
计算N1类型中每个单字Si的出现概率
计算H2类型中每个双字Di的出现概率
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于盛乐信息技术(上海)有限公司,未经盛乐信息技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010233653.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:从斑蝥中提取斑蝥素的方法
- 下一篇:一种塑胶管件焊接机