[发明专利]基于音节驱动的音译实体名的计算机自动识别方法无效
| 申请号: | 200710166174.5 | 申请日: | 2007-11-13 |
| 公开(公告)号: | CN101145166A | 公开(公告)日: | 2008-03-19 |
| 发明(设计)人: | 陈沛;郭永福;许欢庆 | 申请(专利权)人: | 北京中搜在线软件有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100088北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 音节 驱动 音译 实体 计算机 自动识别 方法 | ||
技术领域
本发明属于用于特定功能的数据处理方法技术领域,具体的涉及计算机搜索所使用的一种基于音节驱动的音译实体名的计算机自动识别方法。
背景技术
随着信息检索技术的飞速发展,搜索引擎已经成为人们口常生活中信息的重要来源,在每天不计其数的检索请求中,实体名占了很大的一部分,并且伴随着国际化的趋势,越来越多的用户检索请求中包含音译实体名,如人名、地名、机构名、产品名等。在对北京中搜在线软件有限公司检索日志的统计分析中我们发现,这类请求约占整个检索量的2%,并且还有上升趋势。现有搜索引擎采用的技术无法准确识别出文本中的音译实体名,致使无法获得检索结果准确率。例如,现有商用搜索引擎中查询“伊布拉希”(地名)时,排名靠前的结果都是关于“伊布拉希莫维奇”,这是因为现有系统无法准确地判断音译实体名的边界,将“伊布拉希莫维奇”断开为“伊布拉希”+“莫维奇”。
目前实现音译实体名技术通常采用如下方法实现:
(1)基于音译名用字的识别方法:这种方法通过统计,总结出使用频率最高的476个汉字作为音译名用字,根据对样本的学习,得到各个用字之间的转移概率。在识别过程中根据转移概率得到可信度最高的潜在音译名进行识别。
(2)基于角色标注的音译名识别方法:同方法1,对上述音译名用字区分其角色,分首部,中部和尾部。
上述两种技术都是以单字驱动音译名识别的,这种方法误触发的机会非常大,比如音译名用字里的“里”,“不”等都是汉语中的常用单语素。极大地影响音译名的识别精度,在方法2中采用角色标注理论上虽然可以判断音译名的长度,但实际操作起来难度很大,因为音译名尾部用字也掺杂了非常多的常用字,如“内塔尼业胡”,如果以单字标注尾部,则“亚”做尾部字的概率非常大,这就导致“内塔尼亚胡”这个音译名无法被正确识别出来。同样的,“伊布拉希莫维奇”很可能也是因为这个原因无法被正确的判断边界。
音译名和中文姓名的构成规律差别很大是致使识别率较低的主要原因,音译实体名同中国姓名相比,不存在明显的姓氏和名字的区别,有人名间隔符的情况除外,但即使在这种情况下,也应该将姓名拆开处理;音译实体名同中国姓名相比,字数差别很大,中文姓名一般是2,3个字,极少数为4个字,如冠夫姓,而音译名则从2个字到10几个字不等,而且出现几率相差不大。计算机在对中国人名和音译名进行自动识别的时候都面临着相同的问题,即如何启动人名识别,以及如何确定人名的开始以及结束位置,但是因为构词特性,在问题的难度上以及解决的方法上将会迥然不同。
在中文人名的自动识别上,已经有申请的专利提出了一种基于随机数据源学习中国人名构成规律的方法,例如2006年4月26日公告的中国专利ZL00124352.7,提供了一种中文姓名的计算机识别及检索方法,这种方法统计中国人名中的姓氏和名字用字的信息,然后根据一定规则挑选人名,建立不同权重的索引。这种方法扩展到音译名的识别使用时,存在如下局限性和缺陷:
(1)译名识别的机会过多,容易造成错判,例如“立”,“里”等都是正文出现频率相当高音译名用字。如果用上述专利中采用的单字姓氏驱动的方法势必触发大量的识别过程,降低效率,并影响识别的准确性。例如,“里白”若按音译名用字驱动的方法则可以识别为音译名并建立索引,这是错误的,在Google搜索上查找“里白”,无法查到该人物。
(2)边界无法确定,上述专利的技术方案只是针对中国人名,对可能的2字和3字人名都建立索引。这本身就存在一些问题,比如在这种模式下,搜索“陈沛”可能会返回与“陈沛嘉”有关的结果,影响用户的检索感受。同时音译名的长度不等,如果针对每个可能的音译名都建立索引,则大大增加索引量,加重检索负担。例如在一些搜索引擎上查找“马布里”,“布里白”,“里白”都会返回结果“科比终得帮手马布里白砍45分”,这说明上述专利的方法无法有效推广到音译名识别,主要就是上述原因。
(3)该专利的技术方案是建立在中国姓氏和名字地位不均等的基础上的,姓氏和名字本身并没有什么关联,比如“刘德华”、“周德华”都可能是人名,只是姓氏上的差距,而据我们的统计在音译名中姓名同时出现的比例不到10%,如乔治·布什,大部分都是单独的姓氏来标识一个人物,这样姓氏间各个音节的地位是均等的,不像中国人名般有明显的边界区分,所以若用上述专利的识别和检索方法来识别音译名,必然造成大量的漏查。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中搜在线软件有限公司,未经北京中搜在线软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710166174.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:新式警察证
- 下一篇:一种锁边机的送进机构





