[发明专利]一种基于深度学习的智能物流地址实体识别系统在审
申请号: | 202111523965.5 | 申请日: | 2021-12-14 |
公开(公告)号: | CN114328886A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 林嘉华;倪嘉辉;姜东晓 | 申请(专利权)人: | 上海捷晓信息技术有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/35;G06F40/126;G06F40/205;G06F40/295;G06N3/08 |
代理公司: | 上海智力专利商标事务所(普通合伙) 31105 | 代理人: | 周涛 |
地址: | 201700 上海市青浦区华*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 智能 物流 地址 实体 识别 系统 | ||
1.一种基于深度学习的智能物流地址实体识别系统,其特征在于,该系统组成包括有地址实体数据标注模块、BERT编码器模块和结果解析模块,其中,
所述地址实体数据标注模块接收地址结构化数据,并对接收的地址结构化数据进行数据清洗,获得高质量的已标注地址实体数据;
所述的BERT编码器模块基于已标注地址实体数据,进行深度学习算法学习物流业务实际应用场景的特定句子的编码表示,训练完成获得地址实体识别模型;
所述的结构解析模块基于训练完成的地址实体识别模块,在输入物流地址时,对输入地址信息数据进行解析,解析完成后输出由所输入地址提取的实体内容。
2.根据权利要求1所述的一种基于深度学习的智能物流实体识别系统,其特征在于,在所述的BERT编码器模块中设有BERT编码器、全连接层、softmax分类器和分类优化器,所述BERT编码器处理输入的地址实体数据得到数据的向量表示,全连接层对数据向量表示增加权重,softmax分类器得到预测结果,分类优化器逐层调整模型权重实现模型迭代优化。
3.一种基于深度学习的智能物流地址实体的识别提取方法,其特征在于,该识别提取方法包括如下步骤:
第一步,数据预处理,将历史运单数据筛选,删除重复数据,获得干净的地址实体集;
第二步,地址实体集清洗,并对清洗后数据进行标注提取,经筛选过滤后提取有意义的实体数据,获得模型训练所用的数据;
第三步,BERT编码及模型训练,由BERT编码得到地址数据的向量表示,经模型训练和优化得到物流地址实体识别模型;
第四步,输入地址及结果解析,将物流地址输入至训练得到的物流地址实体识别模型,经过解析输出获得物流地址中的实体内容。
4.根据权利要求3所述的一种基于深度学习的智能物流地址实体的识别提取方法,其特征在于,在所述第一步中,将历史运单数据进行筛选过滤,对省市区+详细地址拼接的数据进行省市区递归删除,删除省市区部分重复的数据,对进行了递归删除的地址进行MD5值计算,删除MD5值一致的数据,该MD5值一致表示为全部重复的数据。
5.根据权利要求3所述的一种基于深度学习的智能物流地址实体的识别提取方法,其特征在于,在所述的第二步中,使用词频/逆文本频率策略对地址提取出的实体进行筛选过滤,只提取具有具体意义的主要实体的数据,得到模型训练所用的标注地址数据。
6.根据权利要求3所述的一种基于深度学习的智能物流地址实体的识别提取方法,其特征在于,在所述第三步中,使用BERT模型对处理好的地址进行命名实体识别任务,得到地址数据的向量表示,在命名实体识别任务中,对训练结果迭代优化,数据表示向量分别经过全连接层和Softmax分类层输出预测结果;预测结果与数据标签计算分类损失;模型优化器通过将损失逐层回传并通过优化算法来迭代优化BERT模型的权重。
7.根据权利要求6所述的一种基于深度学习的智能物流地址实体的识别提取方法,其特征在于,BERT编码和分类优化器的实现过程为:
S1.输入地址实体数据通过BERT编码器得到数据的向量表示C:
C=EncoderTransformer(x1,x2,x3,...,xM) (1)
S2.C经过全连接层加一层权重后,进到Softmax分类器得到预测结果:
pred=soft max(CWT) (2)
S3.根据预测值pred和真实标签label计算分类损失:
S4.通过优化器来逐层调整模型权重实现模型迭代优化,最终得到收敛的地址实体识别模型。
8.根据权利要求3所述的一种基于深度学习的智能物流地址实体的识别提取方法,其特征在于,还包括有第五步,将训练完成的实体识别模型部署为Triton Inference服务,进行物流地址实体识别模型计算解析加速,承担大批量地址实体数据处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海捷晓信息技术有限公司,未经上海捷晓信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111523965.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:动感标签的逆向油印刷工艺
- 下一篇:一种固体电缆检波器测试装置和方法