[发明专利]BOM文本的分词方法、装置、设备及存储介质有效

申请号：	202111625704.4	申请日：	2021-12-29
公开（公告）号：	CN113988068B	公开（公告）日：	2022-04-15
发明（设计）人：	杜飞;高宇鹏;刘武;刘松山;王园园;王安;李六七	申请（专利权）人：	深圳前海硬之城信息技术有限公司
主分类号：	G06F40/289	分类号：	G06F40/289;G06F40/284;G06F40/242
代理公司：	深圳市特讯知识产权代理事务所(普通合伙) 44653	代理人：	孟智广
地址：	518000 广东省深圳市前海深港合作区前***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	bom 文本分词方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及文本分词领域，公开了一种BOM文本的分词方法、装置、设备及存储介质。该方法包括：获取待分词的BOM文本数据，对BOM文本数据进行中英文拆分处理，得到切割文本集；读取切割文本集中的切割文本；判断切割文本是否为中文文本；若为中文文本，则根据预置jieba函数，对切割文本进行分词处理，得到切割分词集，以及将切割分词集确定为分词数据；若不为中文文本，则根据的预置英文数字校验筛选算法，对切割文本进行筛选拆分处理，得到英文数字的分词数据；将所有的分词数据组合为分词数据集，将分词数据集确定为BOM文本数据的分词结果。

技术领域

本发明涉及文本分词领域，尤其涉及一种BOM文本的分词方法、装置、设备及存储介质。

背景技术

BOM 文件属于半结构化的文本文件，用户会在BOM 文件中写明要买硬件的参数信息，包括型号、品牌、精度等。

自然语言处理（NLP，Natural Language Processing）是人工智能领域中的一个重要方向，主要研究人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理的底层任务由易到难大致可以分为词法分析、句法分析和语义分析。分词是词法分析（还包括词性标注和命名实体识别）中最基本的任务，也是众多NLP算法中必不可少的第一步，其切分准确与否往往直接影响下游任务的准确度。

目前已有一些成熟的分词算法，如jieba、PKUse、CoreNLP等，采用N元文法模型（N-gram）、隐马尔可夫模型（Hidden Markov Model，HMM）、CRF等模型都取得了不错的效果，准确率都可以达到95%以上。但是在BOM中剩下的5%却很难突破，主要归结于以下几点：

1）未登录词。即未出现在算法使用的词典中的词，比如BOM 中的专业参数词，以及各种不同型号词等。

2）不同用户书写规范问题。

3） BOM 文本描述属于混合语言，即中英数字混合，并非单纯的中文或英文。

4）粒度，即切分时的最小单位，不同应用对粒度的要求不一样，比如“贴片电容”可以是一个词也可以是两个词。

在实际应用中，以上难点时常会造成分词效果欠佳，进而影响之后的任务。如果分词错误会影响用户意图的解析，这对分词的准确性提出了更高的要求。因此，需要一种技术解决现有BOM文件的分词不准确的技术问题。

发明内容

本发明的主要目的在于解决现有BOM文件的分词不准确的技术问题。

本发明第一方面提供了一种BOM文本的分词方法，包括步骤：

获取待分词的BOM文本数据，对所述BOM文本数据进行中英文拆分处理，得到切割文本集；

读取所述切割文本集中的切割文本；

判断所述切割文本是否为中文文本；