[发明专利]一种基于短文本相似度的税务商品编码分类方法及系统有效
申请号: | 201711085221.3 | 申请日: | 2017-11-07 |
公开(公告)号: | CN107862046B | 公开(公告)日: | 2019-03-26 |
发明(设计)人: | 庞胜民;王涛;孙科武;林文辉;高哲;张浩 | 申请(专利权)人: | 宁波爱信诺航天信息有限公司;航天信息股份有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F17/27 |
代理公司: | 宁波高新区核心力专利代理事务所(普通合伙) 33273 | 代理人: | 袁丽花 |
地址: | 315000 浙江省宁波市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文本 相似 税务 商品 编码 分类 方法 系统 | ||
本发明公开了一种基于短文本相似度的税务商品编码分类方法及系统,所述方法包括:获取样本数据;对样本数据进行分词;获得扩展词;计算KL差异熵,以获得待分类税务商品编码与已有类别之间的差异度,根据所述差异度完成所述分类。本发明对商品文本信息进行具体分类,分为本体词和扩展词,本体词通过应用先进的分词技术对商品的短文本进行中文分词获得,扩展词集合包括索引词和缩略词,扩展词利用外部搜索引擎获得。本发明扩充了待分类词语集合后,利用KL差别熵计算模型来计算待分类词语已有类别之间的差异度,改进了该计算模型,同时引入了平滑参数,在计算其条件词频与反词频、条件概率等值时,防止分母出现0的情况,此外也提高了相似度计算的效率。
技术领域
本发明涉及电子商务平台技术领域,尤其涉及一种基于短文本相似度的税务商品编码分类方法及系统。
背景技术
随着“互联网+”行动的战略部署,互联网在税务领域也发挥着巨大的作用。应用先进的互联网技术,打造全天候、全方位、全覆盖、全流程、全联通的智能的税务系统,是一件惠及企业民生的重要大事。在税务改革过程中,开票是一个关键的环节,据统计数据表明,过去五年中仅天津积累的票务数据达10亿条,达7TB,税务数据的爆炸式增加,一方面带来了信息的积累,给未来的数据分析带来了机遇,一方面也带来了挑战。
2016年国家税务总局提出在开票过程中,必须指定商品类别,并公布了4000余种商品的详细分类。通知要求必须严格按照商品编码分类要求对商品开票,做到商品实际类别与发票显示类型一致。由于商品种类规模巨大,如果通过人力对商品的种类进行浏览是不现实的。那么如何高效准确的对商品进行自动分类是一个关键问题,即如何通过商品名称确定其归属的商品类别。通过税务商品名称可知商品名称呈现典型的短文本特质,语义信息稀疏,上下文信息不足导致语义敏感性较大。商品已有的类别信息也是由一些词语构成的稀疏词语集合,通过经典的依赖概率统计的方式是行不通的。
首先是词频问题。这些方法不但依赖待分类文本的词频也依赖已有的训练文本的词频,而商品名称中出现的词频几乎是1,在训练数据中的词频也是有限的,如果待分类文本与已有历史信息没有共同的词,那么他们之间的相似度会非常小,这被称为字典不匹配问题。此外,还有上下文敏感性问题,在以后的历史信息中,一个词通过语义环境指代一个意思,而待分类短文本因为缺少上下文环境提供的意义是有限的,例如“苹果电脑”和“苹果pie”,这两个词虽然存在共同的词,但是实际上意义完全不一样。在使用经典的基于词频的方法上会导致这两个词存在相似性。
发明内容
为解决以上现有技术中存在的问题,本发明着重通过外部知识挖掘商品名称的短文本与类别短文本之间的相似度计算,包括简单的词法分析,词语缩略处理,文本上下文扩展等技术来计算短文本之间的相似度。
本发明探索利用外部信息检索技术计算短文本相似度,提出短文本相似度计算方法的同时,也提供短文本的上下文语义信息扩展及词语的分词、缩略词等词法分析的处理。
具体的,一种基于短文本相似度的税务商品编码分类方法,包括:
步骤一:获取样本数据;
步骤二:对样本数据进行分词;
步骤三:获得扩展词;
步骤四:计算KL差异熵,以获得待分类税务商品编码与已有商品编码类别之间的差异度,根据所述差异度完成所述分类。
优选的,所述步骤三中的所述扩展词包括索引词和缩略词。
优选的,所述步骤四中的计算KL差异熵的具体过程如下:
(1)使用KL散度来描述待分类商品名称θq和已有商品类别θc之间的关系,如公式1所示:
其中V是用到的字典,H是信息熵;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁波爱信诺航天信息有限公司;航天信息股份有限公司,未经宁波爱信诺航天信息有限公司;航天信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711085221.3/2.html,转载请声明来源钻瓜专利网。