[发明专利]一种基于科技资源的知识抽取方法有效
申请号: | 202110895695.4 | 申请日: | 2021-08-05 |
公开(公告)号: | CN113590808B | 公开(公告)日: | 2023-10-10 |
发明(设计)人: | 杜丰 | 申请(专利权)人: | 苏州工业园区企业发展服务中心 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/951;G06F40/205;G06F40/289;G06N3/0464 |
代理公司: | 重庆百润洪知识产权代理有限公司 50219 | 代理人: | 姚琼斯 |
地址: | 214000 江苏省苏州*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 科技 资源 知识 抽取 方法 | ||
1.一种基于科技资源的知识抽取方法,其特征在于:具体按以下步骤执行:
S1:按照知识抽取的需求,由科技领域工作人员完成科技资源本体库的构建,使用该本体作为知识抽取的基础;
S2:利用本体解析工具,对建好的在科技资源本体中所描述概念以及概念之间的层次关系进行解析,把解析出来的概念和关系结构存入记录表中,得到本体中定义的概念、分类层次、关系和实例;
S3:生成包括各种类型的数据资源的待解析文本;
S4:通过预处理去噪进行文本预处理,并生成编码和格式统一的格式化文档;
S5:把经过预处理后的文本用句子的矩阵化表示;
S6:根据句子的矩阵化表示,以及本体中已定义的概念和关系类型集合,经过剩余残差网络模型ResNet,获取经过预处理的待解析文本中的结构化信息;
S7:判断结构化信息是否达到预设的收敛条件,根据具体的评价标准,判断是否达到收敛条件,若达到则停止,若未达到,则可调整网络模型的参数或对科技资源本体库进行修改和完善,直到达到预设收敛条件为止。
2.根据权利要求1所述的一种基于科技资源的知识抽取方法,其特征在于:在步骤S1中,科技资源本体库包括项目标题、作者、内容关键词、仪器名称、地点、归属、用途和价格信息。
3.根据权利要求1所述的一种基于科技资源的知识抽取方法,其特征在于:在步骤S4预处理去噪包括用爬虫收集的语料数据,去掉内容中的html的标签,然后进行处理中文编码、中文分词、引入停用词、特征处理和建立分析模型。
4.根据权利要求1所述的一种基于科技资源的知识抽取方法,其特征在于:步骤S3的各种类型根据实际需求,特定生成针对设备、项目或者人员信息的待解析文本。
5.根据权利要求1所述的一种基于科技资源的知识抽取方法,其特征在于:在步骤S6中:当输入为x时其学习到的特征记为H(x),设置其学习到残差F(x)=H(x)-x,原始的学习特征是F(x)+x,一个残差单元的公式如式(1)所示:
后面的x前面也需要经过参数Ws变换,从而使得和前面部分的输出形状相同,可以进行加法运算。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州工业园区企业发展服务中心,未经苏州工业园区企业发展服务中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110895695.4/1.html,转载请声明来源钻瓜专利网。