[发明专利]基于音节驱动的音译实体名的计算机自动识别方法无效

申请号：	200710166174.5	申请日：	2007-11-13
公开（公告）号：	CN101145166A	公开（公告）日：	2008-03-19
发明（设计）人：	陈沛;郭永福;许欢庆	申请（专利权）人：	北京中搜在线软件有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	100088北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于音节驱动音译实体计算机自动识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于音节驱动的音译实体名的计算机自动识别方法，包括用于计算机检索的音译名，其特征在于所述自动识别方法包括如下步骤：

(1)从正文库中提取音译名，获得一定容量的可信的音译名样本组成原始可信音译名库；

(2)对原始可信音译名库进行统计分析，构建用于识别音译实体名的音节信息库；

(3)利用步骤(2)得到的音节信息库在待识别正文库中挑选音译名，组成大容量的音译名语料库；

(4)以原始可信音译名库的音译名为基础统计识别步骤(3)得到的音译名语料库的音译名出现的错误类别，修正该音译名语料库，提高识别精度；

(5)利用步骤(4)得到的音译名语料库对输入的音译实体名进行自动识别。

2.根据权利要求1所述的基于音节驱动的音译实体名的计算机自动识别方法，其特征在于所述步骤(1)中从正文库中提取音译名是指从搜索引擎正文库中抓取、筛选音译名。

3.根据权利要求1所述的基于音节驱动的音译实体名的计算机自动识别方法，其特征在于所述步骤(2)中的统计分析是指对原始可信音译名库中的音译名进行音节的出现频率、共现频率和连接概率计算。

4.根据权利要求1所述的基于音节驱动的音译实体名的计算机自动识别方法，其特征在于所述步骤(2)中的音节信息库包括音译名首部音节库、音译名连接音节库和音译名尾部音节库。

5.根据权利要求1所述的基于音节驱动的音译实体名的计算机自动识别方法，其特征在于所述自动识别方法还包括：在步骤(4)得到修正的音译名语料库后，再对该音译名语料库进行统计分析，构建用于识别音译实体名的音节信息库；利用该音节信息库在正文库中挑选音译名，组成更大容量的音译名语料库；以原始可信音译名库的音译名为基础统计识别得到音译名出现的错误类别，修正该更大容量的音译名语料库；然后重复上述步骤，一直到识别精度不再明显提高为止。

6.根据权利要求1所述的基于音节驱动的音译实体名的计算机自动识别方法，其特征在于所述步骤(5)中的自动识别是指利用步骤(4)得到的音译名语料库进行统计分析，构建用于识别音译实体名的最终音节信息库，根据该最终音节信息库中的音译名首部音节库、音译名连接音节库和音译名尾部音节库，计算各个音节的连接概率，统计出一个成词概率，根据所有可能的音译名和对应的成词概率进行筛选，然后用选定的音译名对输入的音译实体名进行自动识别。

7.根据权利要求6所述的基于音节驱动的音译实体名的计算机自动识别方法，其特征在于所述自动识别方法还包括根据自动识别结果对步骤(4)得到的音译名语料库通过审核、过滤或录入方式添加正确音译实体名，构造高精度的可信赖音译名语料库。

8.根据权利要求1所述的基于音节驱动的音译实体名的计算机自动识别方法，其特征在于所述步骤(2)中的统计分析具体是指：分别统计连续2字长、3字长、4字长的串出现频率，选出出现频率较高的部分结果，对该结果进行筛选分析，对2字长、3字长、4字长的串音节分别设定阈值，选取出现概率较高的串作为音节，并对音译名首部音节、音译名连接音节和音译名尾部音节分别设定不同的阈值进行筛选。

9.根据权利要求1所述的基于音节驱动的音译实体名的计算机自动识别方法，其特征在于所述自动识别方法的具体步骤为：

(1)从搜索引擎正文库中抓取、筛选音译名，获得一定容量的可信的音译名样本组成原始可信音译名库；

(2)对原始可信音译名库的音译名进行音节的出现频率、共现频率和连接概率计算，构建用于识别音译实体名的音节信息库，所述音节信息库包括音译名首部音节库、音译名连接音节库和音译名尾部音节库；

(3)利用步骤(2)得到的音节信息库在正文库中挑选音译名，组成大容量的音译名语料库；

(4)以原始可信音译名库的音译名为基础统计识别步骤(3)得到的音译名语料库的音译名出现的错误类别，修正该音译名语料库，提高识别精度；再对该音译名语料库进行统计分析，构建用于识别音译实体名的音节信息库；利用该音节信息库在正文库中挑选音译名，组成更大容量的音译名语料库；以原始可信音译名库的音译名为基础统计识别得到音译名出现的错误类别，修正该更大容量的音译名语料库；然后重复上述步骤，一直到识别精度不再明显提高为止；

(5)利用上一步骤得到的音译名语料库进行统计分析，构建用于识别音译实体名的最终音节信息库，根据该最终音节信息库中的音译名首部音节库、音译名连接音节库和音译名尾部音节库，计算各个音节的连接概率，统计出一个成词概率，根据所有可能的音译名和对应的成词概率进行筛选，然后用选定的音译名对输入的音译实体名进行自动识别；根据自动识别结果对上一步骤得到的音译名语料库通过审核、过滤或录入方式添加正确音译实体名，构造高精度的可信赖音译名语料库。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京中搜在线软件有限公司，未经北京中搜在线软件有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200710166174.5/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于音节驱动的音译实体名的计算机自动识别方法无效

专利文献下载