[发明专利]一种基于人工智能技术的储氢材料数据库构建方法在审
申请号: | 202210500451.6 | 申请日: | 2022-05-10 |
公开(公告)号: | CN114817448A | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 孙立贤;林怀周;蔡丹;徐芬;邹勇进 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/951;G06F40/151;G06F40/289;G06F40/295;G06F40/216;G06F16/35;G06F16/34;G06F16/28;G06F16/22 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 541004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 人工智能 技术 材料 数据库 构建 方法 | ||
1.一种基于人工智能技术的储氢材料数据库构建方法,其特征在于包括以下9个步骤:
步骤1、论文的查询和整理;
步骤2、论文的下载和归档;
步骤3、文本格式转换;
步骤4、文本预处理;
步骤5、化学命名实体识别;
步骤6、文本分类;
步骤7、文本关系抽取;
步骤8、三元化归档;
步骤9、多端存储。
2.根据权利要求1所述的基于人工智能技术的储氢材料数据库构建方法,其特征在于具体实现方法如下:
步骤1,论文的查询和整理,通过学术搜索引擎,获取与储氢材料相关的论文名称,然后整理为待查找论文名称供步骤2使用,其中,本实施例所使用的搜索引擎包括百度学术和谷歌学术;
步骤2,论文的下载和归档,通过自动化下载,通过步骤一整理的待查找论文名称,获取需要进行后续处理的论文并归档;
步骤3,文本格式转换,由于所述步骤2下载和归档的论文格式为PDF格式,而在后续步骤无法直接处理PDF格式论文的文本,因此,需要进行文本格式转换,将PDF格式论文文档转换为Word和TXT格式文档;
步骤4,文本预处理,由于文本格式转换过程中存在转换易错词和较多的无关内容,因此需要通过自然语言处理的方法去除步骤3中文本格式转换后的Raw_TXT中无关内容;
步骤5,化学命名实体识别,由于步骤4中预处理后的分句文本中存在较多的无用信息,会增加后续的关系抽取和三元化归档的无效工作量,而依赖人工进行化学命名实体识别会影响后续步骤的精确度,因此需要通过适配储氢材料的命名实体识别模型对文本进行分类、筛选,去除无需提取数据的文本以减少后续的无效提取;
步骤6,文本分类,由于步骤4文本预处理后的文本包含非有效信息,因此本专利根据步骤5中的命名实体识别结果,从分句后的全文文本中筛选包含目标信息的句段,作为后续关系抽取的处理对象;
步骤7,文本关系抽取,尽管步骤6处理后的文本包含储氢材料化学命名实体,但是仍然无法直接获得句中各个储氢材料基体、性能名称、性能值之间的联系,因此需要进行关系抽取,即通过自然语言处理的方法,抽取出文本中各个文字部分之间的语句关系,而关系抽取的重点在于通过词性关系进行查找匹配;
步骤8,三元化归档,以“关键词+数据名称+数据值”的三元化形式归档,该步骤示意图如图12所示,由于需要对数据进行数据库写入操作,因此需要将步骤7中提取的储氢材料的储氢基体、添加剂、化学式、最低吸放氢温度、最低吸放氢压强及其性能值和单位结构化、三元化地存储入储氢材料数据库,并通过Python的openpyxl程序包进行整理和归档;
步骤9,多端存储,由于从论文中提取的数据需要进行多终端存储以备后续开展储氢材料大数据机器学习,因此本专利提出了“本地存储+MySQL+在线储氢材料数据库”的多端存储策略,存储策略如图13所示;基于此策略,将自动提取到的储氢基体、添加剂、吸/放氢温度和压强等三元化数据进行整理,并与其他阶段论文的分类文本进行归档;
至此,则整体流程已完成。
3.根据权利要求2所述的基于人工智能技术的储氢材料数据库构建方法,其特征在于:所述步骤2论文的查询和归档的处理流程依次为论文名称输入、网络爬虫、论文下载、各格式论文归档,其具体步骤为,
步骤2.1,进行论文名称输入后,通过网络爬虫技术可以对相应的论文名称进行检索,而在使用学术检索引擎获取论文的相关信息时,由于传统人工操作无法满足大数据机器学习的要求,因此,本发明通过Python的Selenium自动化脚本,通过使用静默模式模拟浏览器代替传统人工操作,实现查询待查找文献名称的结果,返回论文信息,其中,由于DOI号是文献结果中最有用的信息,因此,本发明选取DOI号进行后续处理;
步骤2.2,将上述DOI号保存到本地Excel时,同样涉及大量重复操作,人工操作无法满足使用要求,因此,本发明采用Python的openpyxl进行Excel写入操作,然后,使用Requests指令调用申请的Elsevier API读取上述Excel文档中的DOI号,并下载待查找文献的PDF格式文档,实现同时并进行归档和整理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210500451.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种机器人柔性关节摩擦力解析与建模方法
- 下一篇:船用无轴电动推进器