[发明专利]报关单数据匹配方法及装置在审
申请号: | 202011285059.1 | 申请日: | 2020-11-17 |
公开(公告)号: | CN112395866A | 公开(公告)日: | 2021-02-23 |
发明(设计)人: | 曾锴;张明;周佳玉 | 申请(专利权)人: | 中国外运股份有限公司 |
主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F40/284;G06F40/289;G06F16/33 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 郑朝然 |
地址: | 100029 北京市朝*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 报关单 数据 匹配 方法 装置 | ||
本发明实施例提供一种报关单数据匹配方法及装置,所述方法包括:基于预设规则分割报关单文本获取第一文本,并将第一文本中的中文文本和英文文本分割,基于第一文本的文本顺序依次选取对应的中文文本或英文文本作为第二文本,根据分词词典中最长词的长度确定第二文本的待匹配字段,删除待匹配字段中的无效词后对其进行词归一化处理,并将其与分词词典中的词进行相似度计算,若计算结果大于预设值则从报关单文本中分割出所述待匹配字段作为分词,并匹配分词是否符合报关单规范。本发明实施例可以针对中文文本和英文文本分别进行数据匹配校验,同时根据分词词典中最长词的长度确定待匹配字段,考虑了相似词的影响,提高了校验效率和准确率。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种报关单数据匹配方法及装置。
背景技术
随着经济的快速发展以及进出口贸易量的增长,越来越多的人们通过多种渠道进行跨境海外购,海关需要将这些跨境业务进行审核以便使其通关。
在通关业务处理中,审单人员获取到客户提交的报关单后,需要检测报关单的申报要素以及商品名称是否符合海关规则,现有的业务操作一般是根据人工经验进行申报要素的判断,影响检测匹配结果的准确性以及操作效率。
发明内容
针对现有技术存在的问题,本发明实施例提供一种报关单数据匹配方法及装置。
具体地,本发明实施例提供了如下技术方案:
第一方面,本发明实施例提供一种报关单数据匹配方法,包括:
获取待进行数据匹配的报关单文本,所述报关单文本包括中文文本和英文文本;
基于预设规则分割所述报关单文本,获取第一文本,并将所述第一文本中的中文文本和英文文本分割;
基于所述第一文本的文本顺序,依次选取对应的中文文本或英文文本作为第二文本;
根据分词词典中最长词的长度,确定所述第二文本的待匹配字段;所述待匹配字段的长度与所述最长词的长度相同,所述分词词典中存储有报关单相关数据的词;
删除所述待匹配字段中的无效词,对删除无效词后的待匹配字段进行词归一化处理,并将词归一化后的待匹配字段与所述分词词典中的词进行相似度计算,若计算结果大于预设值,则从所述报关单文本中分割出所述待匹配字段作为分词;
匹配所述分词是否符合报关单规范。
进一步地,若所述分词词典中不存在与所述待匹配字段相同的词,则判断所述待匹配字段是否为英文文本,若否,则删除所述待匹配字段排序最后的字,以删除排序最后的字的待匹配字段作为第一字段,将所述第一字段与所述分词词典中的词进行相似度计算,直至计算结果大于预设值时,将所述第一字段作为分词。
进一步地,若所述待匹配字段为英文文本,则对所述待匹配字段按空格进行切割,获取若干个英文单词,并对所述英文单词进行时态转换或单复数转换,删除所述待匹配字段排序最后的英文单词,以删除排序最后的英文单词的待匹配字段作为第二字段,将所述第二字段与所述分词词典中的词进行相似度计算,直至计算结果大于预设值时,将所述第二字段作为分词。
进一步地,基于预设规则分割所述报关单文本,获取第一文本,并将所述第一文本中的中文文本和英文文本分割,包括:
以标点符号分割所述报关单文本,获取若干个句子文本;
按照所述句子文本的文本顺序,选取排序最前的句子文本作为第一文本;
基于正则表达式,将所述第一文本中的中文文本和英文文本分割。
进一步地,根据分词词典中最长词的长度,确定所述第二文本的待匹配字段,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国外运股份有限公司,未经中国外运股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011285059.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置