[发明专利]配方文件识别方法及装置、电子设备、存储介质有效
申请号: | 201811369327.0 | 申请日: | 2018-11-16 |
公开(公告)号: | CN111199170B | 公开(公告)日: | 2022-04-01 |
发明(设计)人: | 陈予郎 | 申请(专利权)人: | 长鑫存储技术有限公司 |
主分类号: | G06V30/418 | 分类号: | G06V30/418;G06V30/41;G06V30/10;G06N3/08 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 袁礼君;阚梓瑄 |
地址: | 230000 安徽省合肥市*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 配方 文件 识别 方法 装置 电子设备 存储 介质 | ||
1.一种配方文件识别方法,其特征在于,包括:
获取待识别文件;
从所述待识别文件中提取出配方关键词,所述配方关键词为所述待识别文件中与数值成组出现的词;
根据所述待识别文件的配方关键词得到所述待识别文件的特征张量;
利用配方文件识别模型对所述特征张量进行处理,得到所述待识别文件是否为配方文件的识别结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取多个样本文件与所述样本文件的文件类型,所述文件类型包括配方文件与非配方文件;
根据所述样本文件的配方关键词得到所述样本文件的样本特征张量;
利用所述样本特征张量与所述文件类型训练机器学习模型,得到所述配方文件识别模型。
3.根据权利要求2所述的方法,其特征在于,在获取多个样本文件后,所述方法还包括:
对所述样本文件的文本进行分词,根据分词的结果构建样本词库;
将所述样本文件的文本中的词组添加到所述样本词库中,得到完整的所述样本词库;
所述从所述待识别文件中提取出配方关键词包括:
从所述待识别文件中提取出与数值相邻的词或词组,将所述词或词组与所述样本词库进行匹配,并将匹配成功的词或词组确定为所述待识别文件的配方关键词。
4.根据权利要求3所述的方法,其特征在于,在得到完整的所述样本词库后,所述方法还包括:
通过所述样本词库提取所述样本文件的配方关键词,得到配方词库;
对所述配方词库中的配方关键词进行独热编码,得到所述配方关键词的独热向量;
所述根据所述待识别文件的配方关键词得到所述待识别文件的特征张量包括:
根据所述待识别文件的配方关键词的独热向量,得到所述待识别文件的特征张量。
5.根据权利要求4所述的方法,其特征在于,所述根据所述待识别文件的配方关键词的独热向量,得到所述待识别文件的特征张量包括:
将所述待识别文件的全部配方关键词的独热向量相加,得到所述待识别文件的特征张量。
6.根据权利要求2所述的方法,其特征在于,在获取待识别文件后,所述方法还包括:
提取所述待识别文件的路径名;
所述根据所述待识别文件的配方关键词得到所述待识别文件的特征张量包括:
根据所述待识别文件的配方关键词与所述待识别文件的路径名得到所述特征张量。
7.根据权利要求6所述的方法,其特征在于,在获取多个样本文件后,所述方法还包括:
提取所述样本文件的路径名,并对所述样本文件的路径名进行分词,根据分词的结果构建路径词库;
对所述路径词库中的路径词进行独热编码,得到所述路径词的独热向量;
所述根据所述待识别文件的配方关键词与所述待识别文件的路径名得到所述特征张量包括:
根据所述待识别文件的配方关键词得到所述待识别文件的第一特征向量;
根据所述路径词库将所述待识别文件的路径名拆分为路径词,并根据所述待识别文件的路径词的独热向量得到所述待识别文件的第二特征向量;
根据所述第一特征向量与所述第二特征向量生成所述待识别文件的特征张量。
8.根据权利要求2所述的方法,其特征在于,在获取待识别文件后,所述方法还包括:
提取所述待识别文件的文件名;
所述根据所述待识别文件的配方关键词得到所述待识别文件的特征张量包括:
根据所述待识别文件的配方关键词与所述待识别文件的文件名得到所述特征张量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长鑫存储技术有限公司,未经长鑫存储技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811369327.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种安装包的生成方法和装置
- 下一篇:用于半导体制造装置的监控系统及监控方法