[发明专利]一种汉语地名的拼音拼写规范化方法有效
申请号: | 201810989125.X | 申请日: | 2018-08-28 |
公开(公告)号: | CN109271625B | 公开(公告)日: | 2023-07-14 |
发明(设计)人: | 黄明伟;陈超;杨锦;丁婷;王圣尧 | 申请(专利权)人: | 江苏省基础地理信息中心 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/295;G06F40/242 |
代理公司: | 江苏致邦律师事务所 32230 | 代理人: | 葛胜非 |
地址: | 210013 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 汉语 地名 拼音 拼写 规范化 方法 | ||
1.一种汉语地名的拼音拼写规范化方法,其特征在于,包括如下步骤:
S100.读取地名数据库,遍历汉语地名,对各个汉语地名进行分类,一级分类为地名类型包括自然地地名和居民地地名;地名类型下设置二级分类,为汉语地名的分类名称,对各分类名称赋予类型编码,并对相同分类名称下的各汉语地名赋予相应的类型编码;基于一级分类、二级分类和类型编码构建类型编码查找表;
S200.构建不同类型编码相应的关键词专名词典和关键词通名词典,读取汉语地名字符串及其类型编码字符串,根据汉语地名类型编码调取对应的关键词专名词典和关键词通名词典,遍历汉语地名字符串,匹配关键词,在关键词处添加分词符号;
S300.构建特殊词词典,包括单字附加修饰词词典、元音词组词典、歧义词词典、儿话音、数字词典、多音字字典、交通线路简称词典、少数民族音译字词典、港澳台地区汉语地名词典和中国南海及中国邻近国际公域词典;基于特殊词词典遍历汉语地名,在特殊词处添加分词符号,并将汉语地名字符串划分成一个多个字符串,对每个特殊词字符串赋予相应标签,添加相应属性信息;
所述标签的属性信息包括:
判断是否为特殊词,存储形式为布尔值;
特殊词标签值:按照前述特殊词词典的类型赋值,划分特殊词所属词典;
判断是否指定拼音内容,存储形式为布尔值;
拼音内容字符串:指定的特殊词转化拼音,以字符串形式存储;
S400.构建汉字拼音转换对照库,对应汉字拼音转换对照库对汉语地名进行拼音转化,包括:分词符号转化为空格,其他标点符号保留;特殊词基于标签属性进行转化,如果布尔值为True,则获取指定的拼音内容字符串,作为特殊词的拼音;如果布尔值为False,则对应汉字拼音转换对照库对汉语地名进行拼音转化;分词的首字母大写,其余部分小写;
S500.输出汉语地名的拼音转换结果。
2.根据权利要求1所述的一种汉语地名的拼音拼写规范化方法,其特征在于,所述专名词典与通名词典的制定方式包括:遍历同一分类名称下相应的汉语地名,从既定的专名、通名词库中匹配相应的专名、通名,编入词库;并对汉语地名进行统计,获取高频词,对专名词典与通名词典进行补全。
3.根据权利要求1所述的一种汉语地名的拼音拼写规范化方法,其特征在于,根据关键词专名词典和关键词通名词典对汉语地名进行分词的步骤包括:
S201.读取汉语地名字符串,获取汉语地名的类型编码;
S202.调取地名类型编码对应的关键词专名词典和关键词通名词典,遍历汉语地名字符串,匹配专名词典中关键词,如果地名中包含专名关键词,跳转S203,否则跳转S206;
S203.遍历汉语地名字符串,匹配通名词典中关键词,如果地名中包含通名关键词,跳转S204,否则跳转S206;
S204.根据字符串长度判断匹配到的通名关键词字数,如果通名关键词字数在两个或以上,则在地名中的通名关键词处添加分词符号;如果通名关键词字数为一个,跳转S205;
S205.如果通名关键词在汉语地名末尾,则在地名中的通名关键词处添加分词符号,否则跳转S206;
S206.结束分词。
4.根据权利要求1所述的一种汉语地名的拼音拼写规范化方法,其特征在于,所述S300中,根据汉语地名类型编码字符串所属的一级分类对汉语地名字符串进行分词;
如果地名类型为自然地地名,则遍历单字附加修饰词词典、元音词组词典、歧义词词典、儿话音、多音字字典,查找特殊词;
如果地名类型为居民地类型,则遍历单字附加修饰词词典、元音词组词典、歧义词词典、儿话音、数字词典、多音字字典、交通线路简称词典、少数民族音译字词典、港澳台地区汉语地名词典、中国南海及中国邻近国际公域词典,查找特殊词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏省基础地理信息中心,未经江苏省基础地理信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810989125.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种目标词确定方法、装置及存储介质
- 下一篇:文本语义分析方法