[发明专利]发票类别识别方法、装置、电子设备及可读存储介质有效
| 申请号: | 201910290457.3 | 申请日: | 2019-04-11 |
| 公开(公告)号: | CN110009796B | 公开(公告)日: | 2020-12-04 |
| 发明(设计)人: | 乔媛媛;余剑扬;林文辉;舒南飞;杨洁 | 申请(专利权)人: | 北京邮电大学 |
| 主分类号: | G07D7/0047 | 分类号: | G07D7/0047;G06K9/62 |
| 代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 丁芸;项京 |
| 地址: | 100876 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 发票 类别 识别 方法 装置 电子设备 可读 存储 介质 | ||
1.一种发票类别识别方法,其特征在于,所述方法包括:
获取用户输入的针对待识别发票的发票信息,根据所述发票信息中的关键词以及预先获取的发票样本训练集,确定所述待识别发票所属的发票编码集合;
针对所述发票编码集合中的每个发票编码,根据所述关键词以及发票样本训练集,通过朴素贝叶斯算法,计算所述待识别发票属于该发票编码的后验概率值;将最大后验概率值对应的发票编码作为所述待识别发票的发票编码;
针对所述发票编码集合中的每个发票编码,根据所述关键词以及发票样本训练集,通过朴素贝叶斯算法,计算所述待识别发票属于该发票编码的后验概率值,包括:
预先对发票样本训练集进行训练,包括:对于发票样本训练集中出现过的任意一个关键词,统计该关键词在所有样本类别出现的概率,对于任意的发票编码,分别统计所述发票编码在发票样本训练集中出现的概率以及属于发票编码的关键词在发票编码中出现的概率;
将所述发票编码在发票样本训练集中出现的概率以及属于发票编码的关键词在发票编码中出现的概率以表格的形式分别存储到分布式文件系统HDFS和Redis数据库,得到概率表格;
当获取待识别发票的发票信息时,通过查询所述概率表格,计算所述待识别发票属于该发票编码的后验概率值。
2.根据权利要求1所述的发票类别识别方法,其特征在于,所述方法还包括:
在接收到多个待识别发票的关键信息时,通过Nginx将多个待识别发票的关键信息分发至多个服务器,通过所述多个服务器对所述多个待识别发票进行发票类别识别。
3.根据权利要求1所述的发票类别识别方法,其特征在于,所述根据所述发票信息中的关键词以及发票样本训练集,确定所述待识别发票所属的发票编码集合,包括:
根据所述发票信息中的关键词以及发票样本训练集,确定所述发票样本训练集中对应的关键信息中同时包含所述发票信息中的所有关键词的发票编码,所述发票样本训练集中每个发票编码对应的关键信息是属于该发票编码的信息;
将得到的发票编码集合作为所述待识别发票所属的发票编码集合。
4.根据权利要求1所述的发票类别识别方法,其特征在于,所述根据所述关键词以及发票样本训练集,通过朴素贝叶斯算法,计算所述待识别发票属于该发票编码的后验概率值,包括:
若发票编码为C,第i个关键词为wi,i为1~n的整数,n为关键词的个数,
根据公式:计算所述待识别发票属于发票编码C的后验概率值P(C|w1,…wn),
P(C)表示发票编码C的先验概率,P(wi|C)表示wi在发票编码C中出现的概率,P(w1,…wn)表示w1~wn的所有关键词同时在发票样本训练集中出现的概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910290457.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种彩票售卖机
- 下一篇:多币种的硬币处理装置





