[发明专利]一种汉语地名的拼音拼写规范化方法有效
申请号: | 201810989125.X | 申请日: | 2018-08-28 |
公开(公告)号: | CN109271625B | 公开(公告)日: | 2023-07-14 |
发明(设计)人: | 黄明伟;陈超;杨锦;丁婷;王圣尧 | 申请(专利权)人: | 江苏省基础地理信息中心 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/295;G06F40/242 |
代理公司: | 江苏致邦律师事务所 32230 | 代理人: | 葛胜非 |
地址: | 210013 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明的涉及一种汉语地名的拼音拼写规范化方法,依据获取的地名类型,构建相应汉语关键词词典,并结合字符串标签,完成地名中关键词的最佳匹配与自动分词;接着进行地名拼音转换与拼写规范化操作,最终实现汉语地名转化成对应拼写规范的拼音要素。本发明的分词方法可避免分词歧义,提高分词效率,在汉语地名数据库中数据量多、语义丰富、汉语地名类型复杂的需求场合下,解决汉语地名自动分词问题;实现汉语地名数据库的汉语地名快速拼音转换,以及拼音拼写规范化,解决了大数据量汉语地名库的汉语拼音转换及规范化拼写问题。 | ||
搜索关键词: | 一种 汉语 地名 拼音 拼写 规范化 方法 | ||
【主权项】:
1.一种汉语地名的拼音拼写规范化方法,其特征在于,包括如下步骤:S100.读取地名数据库,遍历汉语地名,对各个汉语地名进行分类,一级分类为地名类型包括自然地地名和居民地地名;地名类型下设置二级分类,为汉语地名的分类名称,对各分类名称赋予类型编码,并对相同分类名称下的各汉语地名赋予相应的类型编码;基于一级分类、二级分类和类型编码构建类型编码查找表;S200.构建不同类型编码相应的关键词专名词典和关键词通名词典,读取汉语地名字符串及其类型编码字符串,根据汉语地名类型编码调取对应的关键词专名词典和关键词通名词典,遍历汉语地名字符串,匹配关键词,在关键词处添加分词符号;S300.构建特殊词词典,包括单字附加修饰词词典、元音词组词典、歧义词词典、儿话音、数字词典、多音字字典、交通线路简称词典、少数民族音译字词典、港澳台地区汉语地名词典和中国南海及中国邻近国际公域词典;基于特殊词词典遍历汉语地名,在特殊词处添加分词符号,并将汉语地名字符串划分成一个多个字符串,对每个特殊词字符串赋予相应标签,添加相应属性信息;所述标签的属性信息包括:判断是否为特殊词,存储形式为布尔值;特殊词标签值:按照前述特殊词词典的类型赋值,划分特殊词所属词典;判断是否指定拼音内容,存储形式为布尔值;拼音内容字符串:指定的特殊词转化拼音,以字符串形式存储;S400.构建汉字拼音转换对照库,对应汉字拼音转换对照库对汉语地名进行拼音转化,包括:分词符号转化为空格,其他标点符号保留;特殊词基于标签属性进行转化,如果布尔值为True,则获取指定的拼音内容字符串,作为特殊词的拼音;如果布尔值为False,则对应汉字拼音转换对照库对汉语地名进行拼音转化;分词的首字母大写,其余部分小写;S500.输出汉语地名的拼音转换结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏省基础地理信息中心,未经江苏省基础地理信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810989125.X/,转载请声明来源钻瓜专利网。
- 上一篇:一种目标词确定方法、装置及存储介质
- 下一篇:文本语义分析方法