[发明专利]一种干线物流货物名称自动识别分类方法在审
申请号: | 201810262980.0 | 申请日: | 2018-03-28 |
公开(公告)号: | CN108491390A | 公开(公告)日: | 2018-09-04 |
发明(设计)人: | 于文志;罗竞佳;王东 | 申请(专利权)人: | 江苏满运软件科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06Q10/08;G06K9/62 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 邓丽 |
地址: | 210012 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 货物 自动识别 分类 物流货物 稀疏矩阵 清洗 创建 自然语言识别 分类模型 名称识别 人工成本 数据构建 随机抽取 特征处理 预测结果 干线 贝叶斯 精准度 归类 算法 字典 数据库 节约 预测 | ||
本发明公开了一种干线物流货物名称自动识别分类方法,包括如下步骤:a)创建货源数据库,货源数据中包括货物ID和货物名称,依据货物名称创建货物类别,为每个货物类别创建货物名称字典;b)随机抽取货源数据,标识每条货源数据的货物类别,对货源数据进行归类、清洗;c)为清洗后的数据构建稀疏矩阵;d)对稀疏矩阵进行tf‑idf特征处理;e)采用分类模型得出预测结果,进行预测分类。本发明基于朴素贝叶斯算法的自然语言识别,对货物名称自动识别后进行分类,大大提高了货物名称识别分类的精准度,节约了大量的时间,降低了大量的人工成本,同时提高了货主的使用体验度。
技术领域
本发明属于计算机领域,涉及自然语言处理领域,尤其涉及一种干线物流货物名称自动识别分类方法。
背景技术
随着公路运输的快速发展,在公路干线物流领域,交易和流通变得越来越频繁和重要,现有的干线物流货物分类体系复杂,需要用户人工填写货物类别,耗费较多的时间且存在分类准确度完全依赖用户经验的情况。
随着物联网技术的迅猛发展,使得对货物名称自动识别成为可能,使得计算机来自动处理各种货源数据变得可能。因此,采用物联网技术来对现有的货物名称进行识别,就能解决上述的各种问题,大大提高了货物名称识别分类的精准度,节约了大量的时间,降低了大量的人工成本,同时提高了货主的使用体验度。
发明内容
为了解决上述问题,本发明公开了一种干线物流货物名称自动识别方法,基于朴素贝叶斯算法的自然语言识别,对货物名称自动识别后进行分类。
为了达到上述目的,本发明的技术方案如下:
一种干线物流货物名称自动识别分类方法,包括如下步骤:
a)创建货源数据库,货源数据中包括货物ID和货物名称,依据货物名称创建货物类别,为每个货物类别创建货物名称字典;
b)随机抽取货源数据,标识每条货源数据的货物类别,对货源数据进行归类、清洗;
c)为清洗后的数据构建稀疏矩阵;
d)对稀疏矩阵进行tf-idf特征处理;
e)采用分类模型得出预测结果,进行预测分类。
优选的,所述步骤b)中对数据进行清洗是对货源数据进行中文文本预处理,采用正则表达式只提取中文信息后,对提取的中文文本进行切词。
优选的,在所述对提取的中文文本进行切词前加入所述步骤a)中的货物名称字典。
优选的,对所述步骤d)中tf-idf值低的词进行过滤处理,并创建停用词字典。
优选的,获取维基百科的中文网页作为语料库,使用gensim训练word2vec模型,将所述步骤a)中的货物名称作为关键字放入训练模型中查找货物名称字典的近义词,扩充为2级货物名称字典。
优选的,所述步骤e)中的分类模型是朴素贝叶斯模型。
优选的,根据所述步骤e)中得出的预测结果,调整添加所述步骤a)中的货物名称字典和所述停用词字典的内容。
与现有技术相比,本发明的有益效果是:
本发明所述的一种干线物流货物名称自动识别分类方法,通过对货源数据的清洗,对未分类的数据进行重新分类,实现了根据货物名称自动对货物分类的功能,其分类均准度均达到百分之九十以上,同时减少了货主使用APP发货时选择货物类别的步骤,也省去了APP后台客服人工填写货物类别的时间,节约了大量的时间,降低了大量的人工成本,同时提高了货主的使用体验度。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏满运软件科技有限公司,未经江苏满运软件科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810262980.0/2.html,转载请声明来源钻瓜专利网。