[发明专利]用于中文姓名匹配的方法和系统有效
申请号: | 201410060194.4 | 申请日: | 2014-02-21 |
公开(公告)号: | CN104008123B | 公开(公告)日: | 2017-10-13 |
发明(设计)人: | 黄书东;N·C·金 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市中咨律师事务所11247 | 代理人: | 于静,张亚非 |
地址: | 美国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 中文 姓名 匹配 方法 系统 | ||
技术领域
本发明涉及姓名匹配,更具体地说,涉及原生脚本和跨脚本中文姓名匹配。
背景技术
中文字符(在中文中称为汉字,在日语中称为日本汉字,在朝鲜语中称为朝鲜汉字)用于在多种语言中表示姓名,每种语言可以针对相同的基本姓名使用不同的字符。即使在中文本身中,也存在区域变体。例如,在中国大陆和新加坡,使用简体字符集,而台湾和香港使用繁体字符。
在广泛采用统一码(Unicode)之前,针对中文字符使用不同的编码系统,并且一个编码系统支持的字符范围很可能不同于另一个编码系统。将来自一个区域的电子文本呈现为可由来自另一个区域的人们读取的版本时,不仅需要转换编码系统,而且还需要更改区域特定的字符。例如,中华人民共和国建国之父的姓名在中国大陆表示为“テオ泽东”,在台湾表示为“テオ數翻”,在日本表示为“テォ嬌翻”。
统一码联盟保留大范围的代码点,以便覆盖几乎所有使用中的中文字符。这具有许多优点,但也产生一些新的挑战。一个此类挑战是使用什么区域变体不再明显,因为只要具有适当的字体支持,区域变体便可以以相同的文本显示。上面提及的变体姓名“テォ泽东”、“テォ數翻”、“テォ嬌翻”以及甚至“テォ嬌东”可以全部存在于单个人名数据库中。如果给出任何一个变体作为查询姓名,则姓名匹配技术必须能够匹配所有其它变体。
现有姓名搜索系统没有这种能力。尽管谷歌搜索引擎(全球最受欢迎的搜索引擎之一)可让用户指定繁体和简体中文作为两个不同的语言选项,但是当以其它语言选项指定返回结果时,它不会自动将采用繁体中文字符的查询转换为其简体字符等效物,也不会自动将采用简体中文字符的查询转换为其繁体字符等效物。百度搜索引擎(它是中国最受欢迎的搜索引擎之一)也没有这种能力。
上面描述的问题因跨脚本姓名匹配而加重。已经建议和实现各种技术,特别是在跨语言信息检索和机器翻译方面,包括音译、回音译、并行姓名数据库以及机器学习。但是,此类系统通常忽略一个脚本中的姓名可能在另一个脚本中具有多个表示,这或者是因为源姓名具有几种读法(例如,日本汉字姓名),或者是因为源语言在目标语言中具有多种音译系统(例如,拼音、威妥玛-翟理斯拼音和耶鲁拼音实现用罗马字母拼写汉语)。即使当存在这些音译标准时,某个人也可能选择不同于任何标准惯例的形式。
汉语中的所有中文字符都是单音节的。在中文计数声调中仅有大约1,350个独特音节,或者当不考虑声调时,具有大约410个独特音节。在具有数万个中文字符的情况下,单个音节因此可以由许多不同的字符表示。因此,可以将可采用一系列不同中文字符写出的姓名音译成相同的用罗马字母拼写的形式。换言之,在汉字姓名及其用罗马字母拼写的形式之间具有多对一关系。因此,有利的是具有一种中文姓名匹配系统,该系统能够使中文字符变体和用罗马字母拼写的变体两者匹配,同时明显减少错误肯定的数量,这些错误肯定可能由于中文字符及其用罗马字母拼写的形式之间的多对一关系所致。
发明内容
根据本发明的一个实施例,描述一种用于中文姓名匹配的技术。接收中文姓名并将其用罗马字母拼写成汉语拼音表示。将所述中文姓名的所述汉语拼音表示与源自多个不同中文字符姓名的一组用罗马字母拼写的中文姓名相匹配。响应于在所述汉语拼音表示与用罗马字母拼写的中文姓名之间找到潜在匹配,检索所述用罗马字母拼写的中文姓名的原始中文脚本。在所接收的中文姓名与所述用罗马字母拼写的中文姓名的所述原始中文脚本之间应用原生脚本比较以获得匹配得分。所述原生脚本比较包括逐字符比较、字符变体查找和/或有关姓名组成未对齐的考虑。将所获得的匹配得分用作过滤器以便减少在将所述汉语拼音表示与所述一组用罗马字母拼写的中文姓名相匹配中生成的错误肯定。
在以下附图和描述中提供了本发明的一个或多个实施例的细节。从说明书和附图以及权利要求,本发明的其它特性和优点将显而易见。
附图说明
图1示出根据一个实施例的其中可以实现中文姓名匹配的计算机系统(10);
图2示出根据一个实施例的用于中文姓名匹配的处理器(200);
图3示出根据一个实施例的图2的中文字符比较步骤212的详细视图;
图4示出根据一个实施例的其中可以实现中文人名音译的计算机系统(A10);
图5示出根据一个实施例的用于中文人名音译的过程(A200);
图6是根据一个实施例的图5的姓名模式解析步骤A204的更详细视图;
图7是根据一个实施例的图5的音译步骤A206的更详细视图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410060194.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:柔性碳纳米管晶体管的制备方法
- 下一篇:改进的煤层底板突水脆弱性评价方法