[发明专利]一种商品名称分类的模型构建方法及装置在审

申请号：	202210251484.1	申请日：	2022-03-15
公开（公告）号：	CN114580560A	公开（公告）日：	2022-06-03
发明（设计）人：	王宗增;杨培强;程林	申请（专利权）人：	浪潮软件科技有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/08;G06F16/35;G06F40/289;G06F40/30
代理公司：	济南信达专利事务所有限公司 37100	代理人：	姜丽洁
地址：	250100 山东省济***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种商品名称分类模型构建方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及网络模型领域，具体提供了一种商品名称分类的模型构建方法，具有如下步骤：S1、开源Wikipedia和Books Corpus语料收集，税务商品名称语料收集；S2、对开源Wikipedia和BooksCorpus语料进行数据集操作；S3、引入BERT网络进行并进行模块化编程；S4、组合各编程模块，构建完整End‑to‑End的流水线；S5、使用预处理后的开源数据，对调整后的网络进行预训练；S6、对网络进行微调，得到最终的税务领域商品名称分类迁移学习的模型。与现有技术相比，本发明的一种商品名称分类的模型构建方法，能够实现税务商品名称分类，具有良好的推广价值。

技术领域

本发明涉及网络模型领域，具体提供一种商品名称分类的模型构建方法及装置。

背景技术

如何更好地对自然语言文本(特指简体中文)进行表征,在NLP(Natural LanguageProcessing)技术近20年的发展中，成为不可逃避的问题。近些年来,NLP领域技术的发展可笼统的概括为某些形式的语言建模，继BOW(Bag of Words)、TextRank(PageRank网页搜索随机算法思想)、BM25(TF-IDF演进的多词语与文本关联程度度量算法)等统计语言模型之后，自2001年Bengio提出NNLM(Neural Network Language Models)神经语言模型，到如今经历Multi-mask Learning(多任务学习)、Word Embeddings(词嵌入)、Neural networksfor NLP(NLP神经网络)、生成任务的Sequence-to-sequence models序列模型、Attention(e.g.Scaled dot-product attention、self-attention、encoder-decoder attention)注意力机制、Memory-based networks(基于记忆的网络)、Pretrained language models(预训练语言模型)技术发展的变迁，衍生出大量各类思想的模型，自然语言文本的表征能力不断增强。

NLP建模框架底层方面，CWS(Chinese Word Segmentation)中文分词作为自然语言建模的前置操作(除基于Transformer中文自然语言处理任务word piece作为token的模型外)，其技术发展也由传统机器学习[BMES]标注(HMM计数式和CRF迭代式)向DL(DeepLearning)深度学习基于NN(Neural Networks)神经网络的神经预训练语言模型(e.g.引入Attention机制的Transformer encoder网络)表征的，后置GLUE任务的结构化预测方向发展，后者可形成生态闭环。语言建模具体任务方面，已形成稠密的词嵌入替代稀疏的one-hot独热编码(或Dummy哑编码)的态势。纵观全局，对自然语言文本的机器理解，前置词语(或字符)粒度的表征(NNLM、Word2vec)，处理上使用seq2seq的encoder编码器，引入attentin机制替代RNN，从而实现真实语义上的理解成为必然选择。

在税务领域商品名称分类建模技术方案的制定上，延续主流语言模型构建思想，以Transformer的Encoder为模型构建基础，后在税务垂直领域进行迁移学习模型微调。但如何设计合理的分类器，实现税务商品名称分类是本领域的技术难点。

发明内容

本发明是针对上述现有技术的不足，提供一种实用性强的商品名称分类的模型构建方法。

本发明进一步的技术任务是提供一种设计合理，安全适用的商品名称分类的模型构建装置。

本发明解决其技术问题所采用的技术方案是：

一种商品名称分类的模型构建方法，具有如下步骤：

S1、开源Wikipedia和Books Corpus语料收集，税务商品名称语料收集；

S2、对开源Wikipedia和Books Corpus语料进行数据集操作；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浪潮软件科技有限公司，未经浪潮软件科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210251484.1/2.html，转载请声明来源钻瓜专利网。