[发明专利]一种商户名称翻译的方法及设备在审
申请号: | 202110426399.X | 申请日: | 2021-04-20 |
公开(公告)号: | CN113128240A | 公开(公告)日: | 2021-07-16 |
发明(设计)人: | 向桥梁 | 申请(专利权)人: | 连通(杭州)技术服务有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/289 |
代理公司: | 上海百一领御专利代理事务所(普通合伙) 31243 | 代理人: | 王奎宇 |
地址: | 310052 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 商户 名称 翻译 方法 设备 | ||
本申请的目的是提供一种商户名称翻译的方法及设备,本申请通过将待翻译的商户名称按照字符级别以及单词级别进行清洗,得到清洗后的商户名称;识别所述清洗后的商户名称中所包含的地址信息、组织形式信息以及店铺信息,得到第一识别的商户名称;识别所述第一识别的商户名称中的行业信息以及企业字号信息,得到第二识别的商户名称;对所述第二识别的商户名称进行翻译,得到翻译后的商户名称。从而可以满足对具有明显行业属性的非正式语言的翻译,并且容易调整和迭代,翻译结果准确度高。
技术领域
本申请涉及计算机领域,尤其涉及一种商户名称翻译的方法及设备。
背景技术
在跨境外卡内用交易时,中国的商户名字需要被翻译成英文,一方面是为了和境外网络交换商户信息;另一方面是在收据里打印商家信息方便外卡持卡人查看,但是因技术规范要求和收据纸张长度的限制,对翻译的长度有一定的要求,导致无法使用传统软件来翻译,比如报文对名字的要求是不超过25个英文字符,则对应的中文平均不超过8个时,让传统的翻译方法难以应用,通常翻译出的商户名称被强行截断后持卡人无法解读。现有的传统翻译软件采用的主要方法是在大量有标记的语言库上进行训练的,然后用于翻译中文,该方式需要大量的投入用于标记语言库,设计新型的算法使用大量的算力来计算,而对于明显属于行业属性的非正式语言的效果欠佳。在对于明显属于行业属性的非正式语言的翻译中,还有拼音法,是将中文直接转成拼音然后进行截断,而这种准确度比较低,有用的信息少,截断率超过80%;还有使用人工进行逐一翻译,但这种方式速度较慢成本也高,无法广泛应用。
发明内容
本申请的一个目的是提供一种商户名称翻译的方法及设备,解决现有技术中传统翻译软件需要大量的投入标记语言库、计算量大、对属于行业属性的非正式语言的效果欠佳以及直接拼音翻译准确度低的问题。
根据本申请的一个方面,提供了一种商户名称翻译的方法,该方法包括:
将待翻译的商户名称按照字符级别以及单词级别进行清洗,得到清洗后的商户名称;
识别所述清洗后的商户名称中所包含的地址信息、组织形式信息以及店铺信息,得到第一识别的商户名称;
识别所述第一识别的商户名称中的行业信息以及企业字号信息,得到第二识别的商户名称;
对所述第二识别的商户名称进行翻译,得到翻译后的商户名称。
可选地,识别所述清洗后的商户名称中所包含的地址信息、组织形式信息以及店铺信息,包括:
采用地点词库和自定义规则识别所述清洗后的商户名称中所包含的地址信息,其中,所述地点词库包括省、市、县及区的层次关系;
识别所述清洗后的商户名称中所含有的组织形式信息,所述组织形式信息包括个体户形式和企业形式;
识别所述清洗后的商户名称中所包含的店铺信息,所述店铺信息包括中心、广场、商行及商店。
可选地,识别所述第一识别的商户名称中的行业信息以及企业字号信息,包括:
按照分词识别方式识别所述第一识别的商户名称中的行业信息;
根据识别出的行业信息确定企业字号信息。
可选地,所述分词识别方式包括:
将所述第一识别的商户名称中的地址信息、组织形式信息以及店铺信息进行删除,得到删除后的商户名称;
将所述删除后的商户名称进行句子分词,得到多个词组;
从左到右逐一遍历每一个词组,判断所遍历到的词组是否在预设的行业词典中,将在预设的行业词典中的词组作为行业词组;
根据所有的行业词组确定行业信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于连通(杭州)技术服务有限公司,未经连通(杭州)技术服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110426399.X/2.html,转载请声明来源钻瓜专利网。