[发明专利]发票类别识别方法、装置、电子设备及可读存储介质在审
| 申请号: | 201811555038.X | 申请日: | 2018-12-19 |
| 公开(公告)号: | CN109740642A | 公开(公告)日: | 2019-05-10 |
| 发明(设计)人: | 乔媛媛;余剑扬;林文辉;舒南飞;杨洁 | 申请(专利权)人: | 北京邮电大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04 |
| 代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 丁芸;项京 |
| 地址: | 100876 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 关键信息 发票类别 分类编码 发票 矩阵 可读存储介质 神经网络模型 电子设备 分类概率 向量 数据挖掘技术 矩阵输入 向量表示 预先建立 应用 | ||
本发明实施例提供了一种发票类别识别方法、装置、电子设备及可读存储介质,应用于数据挖掘技术领域,所述方法包括:提取待识别发票中的关键信息,对关键信息中的每个词进行向量表示,得到关键信息矩阵;将关键信息矩阵输入预先建立的神经网络模型中,得到关键信息矩阵对应的分类概率向量,神经网络模型是根据各发票中的关键信息以及各发票对应的分类编码得到的;将分类概率向量中最大值元素对应的分类编码作为待识别发票的分类编码。与现有技术相比,本发明可以提高发票类别识别的效率和准确性。
技术领域
本发明涉及数据挖掘技术领域,特别是涉及一种发票类别识别方法、装置、电子设备及可读存储介质。
背景技术
为加快税收现代化建设,方便纳税人便捷、规范开具增值税发票,有利于税务机关加强增值税征收管理。税务总局编写了《商品和服务税收分类与编码(试行)》,并在增值税发票系统升级版中增加了编码相关功能。自2018年1月1日起,纳税人通过增值税发票管理新系统开具增值税发票(包括:增值税专用发票、增值税普通发票、增值税电子普通发票)时,商品和服务税收分类编码对应的简称会自动显示并打印在发票票面“货物或应税劳务、服务名称”或“项目”栏次中,编码简称需要按照颁布的《商品和服务税收分类编码表》。简单地说就是要在开票系统中增加一个类别品名的编码功能,从系统中开具的每一张发票的每一个商品或者服务对应一项编码。原来的发票名称五花八门,同一货物名称在各地都有不同的说法,没有一个相对统一的标准;有了税收分类编码,每一个商品或者服务就对应一项唯一编码,全国通用,增加了识别度也便于有效的筛选。
然而,商品和服务税收分类编码表是根据货物、应税劳务、服务或者项目名称的分类来进行编码的。税收分类编码则是从篇、类、章、节、条、款、项、目、子目和细目组成,编码的基本规则是从大类逐步细化到具体的货物、应税劳务、服务或者项目名称。从现行编码表看,细化到篇、类、章、节、条、款、项7个细类,目、子目和细目尚未细化。商品和服务税收分类编码分成了6个大类,分别是货物、劳务、销售服务、无形资产、不动产和未发生销售行为的不征税项目。每个大类下面又有数量不等的小类别,整体的编码表呈现树结构,总共4226个编码类别。编码是以19位的数字串表示,结构简化如图1所示,需要说明的是,图1中括号内为商品和服务税收分类编码,为了表示方便,仅保留到字符串最后一个非0数字,省略了后面的0。
由于商品和服务的名称多种多样,将其准确分类到对应的类别中是一个十分具有挑战性的问题。相关技术中,可以通过关键字检索对商品和服务的名称进行分类,例如,商品和服务的名称为苹果手机,输入手机作为关键词进行检索,根据检索出来的相关类别集合再选取合适的类别。但是该方法需要人为的从商品和服务名称中摘取出关键词,同时关键词并不能涵盖整个商品和服务名称的信息,所以具有一定的局限性,对商品和服务名称进行分类编码的效率和准确性比较低。
发明内容
本发明实施例的目的在于提供一种发票类别识别方法、装置、电子设备及可读存储介质,以提高发票类别识别的效率和准确性。具体技术方案如下:
本发明实施例提供了一种发票类别识别方法,所述方法包括:
提取待识别发票中的关键信息,对所述关键信息中的每个词进行向量表示,得到关键信息矩阵;
将所述关键信息矩阵输入预先建立的神经网络模型中,得到所述关键信息矩阵对应的分类概率向量,所述神经网络模型是根据各发票中的关键信息以及所述各发票对应的分类编码得到的;
将所述分类概率向量中最大值元素对应的分类编码作为所述待识别发票的分类编码。
可选的,所述神经网络模型的建立方法包括:
针对所述各发票中的每个发票,提取该发票中的关键信息,对该发票中的关键信息中的每个词进行向量表示,得到该发票对应的关键信息矩阵;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811555038.X/2.html,转载请声明来源钻瓜专利网。





