[发明专利]配方文件识别方法及装置、电子设备、存储介质有效
申请号: | 201811369327.0 | 申请日: | 2018-11-16 |
公开(公告)号: | CN111199170B | 公开(公告)日: | 2022-04-01 |
发明(设计)人: | 陈予郎 | 申请(专利权)人: | 长鑫存储技术有限公司 |
主分类号: | G06V30/418 | 分类号: | G06V30/418;G06V30/41;G06V30/10;G06N3/08 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 袁礼君;阚梓瑄 |
地址: | 230000 安徽省合肥市*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 配方 文件 识别 方法 装置 电子设备 存储 介质 | ||
本公开提供了一种配方文件识别方法及装置、电子设备、计算机可读存储介质,属于人工智能技术领域。该方法包括:获取待识别文件;从所述待识别文件中提取出配方关键词,所述配方关键词为所述待识别文件中与数值成组出现的词;根据所述待识别文件的配方关键词得到所述待识别文件的特征张量;利用配方文件识别模型对所述特征张量进行处理,得到所述待识别文件是否为配方文件的识别结果。本公开可以较为充分的提取出文件中的特征信息,提高识别文件是否为配方文件的结果的准确度,并减少需要处理的关键词数量,提高识别效率。
技术领域
本公开涉及人工智能技术领域,特别涉及一种配方文件识别方法、配方文件识别装置、电子设备及计算机可读存储介质。
背景技术
在很多企业中,配方(Recipe)文件都具有很高的机密性,例如半导体晶圆厂的工艺配方文件、制药公司的合成配方文件、食品厂的食材配方文件等,一旦发生外泄,将造成企业的重大损失。为了防止该情况的发生,需要将配方文件从种类繁多的企业内部文件中识别出来,以进行严格的区分性管理。
现有的配方文件识别方法较多的依赖于关键词匹配,基于事先配置的关键词库,对文件的文件名或内容关键词进行查找匹配,根据匹配的结果判断文件是否为配方文件。然而,配方文件的关键词与企业内部其他文件的关键词之间难免有一定的重合,通过上述方法难以精准的区分出两类文件,导致配方文件识别的准确率较低、误判率较高,且对于人为恶意篡改、隐藏文件名或文件内容的情况,上述方法也无法有效地识别出,从而给企业的信息安全管理带来风险。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开提供了一种配方文件识别方法、配方文件识别装置、电子设备及计算机可读存储介质,进而至少在一定程度上克服现有的配方文件识别方法准确率较低且识别范围较小的问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一个方面,提供一种配方文件识别方法,包括:获取待识别文件;从所述待识别文件中提取出配方关键词,所述配方关键词为所述待识别文件中与数值成组出现的词;根据所述待识别文件的配方关键词得到所述待识别文件的特征张量;利用配方文件识别模型对所述特征张量进行处理,得到所述待识别文件是否为配方文件的识别结果。
在本公开的一种示例性实施例中,所述方法还包括:获取多个样本文件与所述样本文件的文件类型,所述文件类型包括配方文件与非配方文件;根据所述样本文件的配方关键词得到所述样本文件的样本特征张量;利用所述样本特征张量与所述文件类型训练机器学习模型,得到所述配方文件识别模型。
在本公开的一种示例性实施例中,在获取多个样本文件后,所述方法还包括:对所述样本文件的文本进行分词,根据分词的结果构建样本词库;将所述样本文件的文本中的词组添加到所述样本词库中,得到完整的所述样本词库;所述从所述待识别文件中提取出配方关键词包括:从所述待识别文件中提取出与数值相邻的词或词组,将所述词或词组与所述样本词库进行匹配,并将匹配成功的词或词组确定为所述待识别文件的配方关键词。
在本公开的一种示例性实施例中,在得到完整的所述样本词库后,所述方法还包括:通过所述样本词库提取所述样本文件的配方关键词,得到配方词库;对所述配方词库中的配方关键词进行独热(one-hot)编码,得到所述配方关键词的独热向量;所述根据所述待识别文件的配方关键词得到所述待识别文件的特征张量包括:根据所述待识别文件的配方关键词的独热向量,得到所述待识别文件的特征张量。
在本公开的一种示例性实施例中,所述根据所述待识别文件的配方关键词的独热向量,得到所述待识别文件的特征张量包括:将所述待识别文件的全部配方关键词的独热向量相加,得到所述待识别文件的特征张量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长鑫存储技术有限公司,未经长鑫存储技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811369327.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种安装包的生成方法和装置
- 下一篇:用于半导体制造装置的监控系统及监控方法