[发明专利]一种基于科技资源的知识抽取方法有效
申请号: | 202110895695.4 | 申请日: | 2021-08-05 |
公开(公告)号: | CN113590808B | 公开(公告)日: | 2023-10-10 |
发明(设计)人: | 杜丰 | 申请(专利权)人: | 苏州工业园区企业发展服务中心 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/951;G06F40/205;G06F40/289;G06N3/0464 |
代理公司: | 重庆百润洪知识产权代理有限公司 50219 | 代理人: | 姚琼斯 |
地址: | 214000 江苏省苏州*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 科技 资源 知识 抽取 方法 | ||
本发明涉及知识抽取技术领域,尤其涉及一种基于科技资源的知识抽取方法。本发明构建科技资源本体库、本体库解析、待解析文本预处理、句子的矩阵化表示、剩余残差网络获取结构化信息、评价标准计算、判断预设的收敛条件。本发明基于科技资源本体,通过剩余残差网络有效地抽取非结构化文本中的知识并形成结构化信息,采用这种抽取方法,极大地提高了结构化信息抽取的效率,有助于丰富已有的知识图谱资源,进而为各种智能化应用更好地服务。
技术领域
本发明涉及知识抽取技术领域,尤其涉及一种基于科技资源的知识抽取方法。
背景技术
随着网络和计算机的发展,信息资源更新速度快且数量庞大,其中蕴含着丰富的可用知识和很高的研究价值。在这样的大数据且信息资源低密度的前提下,知识抽取具有很大的研究意义。这些网络化、数字化的信息资源的存在形式大多是自由、半结构化或者非结构化的,信息数量繁杂且实时更新,而知识抽取则能够利用相关技术和方法从信息中抽取出用户所需要的知识,从而实现信息资源的有效利用。
本体是一种元模型,提供各个领域的标准术语和要领。本体能将知识体系化、结构化、标准化,也使存在于客观世界的无意识的隐性知识形式化。本体的分析澄清了领域知识的结构,确定该领域内共同认可的词汇术语,通过构建统一的规范模型来缩小概念和术语上的差异性,基于本体的知识抽取技术将在未来的知识抽取发展中成为不可或缺的重要技术。
发明内容
有鉴于此,本发明的目的是提供一种基于科技资源的知识抽取方法,本发明具体按以下步骤执行:
S1:按照知识抽取的需求,由科技领域工作人员完成科技资源本体库的构建,使用该本体作为知识抽取的基础;
S2:利用本体解析工具,对建好的在科技资源本体中所描述概念以及概念之间的层次关系进行解析,把解析出来的概念和关系结构存入记录表中,得到本体中定义的概念、分类层次、关系和实例;
S3:生成包括各种类型的数据资源的待解析文本;
S4:通过预处理去噪进行文本预处理,并生成编码和格式统一的格式化文档;在预处理去噪包括用爬虫收集的语料数据,去掉内容中的html的标签,然后进行处理中文编码、中文分词、引入停用词、特征处理和建立分析模型。
S5:把经过预处理后的文本用句子的矩阵化表示;
S6:根据句子的矩阵化表示,以及本体中已定义的概念和关系类型集合,经过剩余残差网络模型ResNet,获取经过预处理的待解析文本中的结构化信息;当输入为x时其学习到的特征记为H(x),设置其学习到残差F(x)=H(x)-x,原始的学习特征是F(x)+x,一个残差单元的公式如式(1)所示:
后面的x前面也需要经过参数Ws变换,从而使得和前面部分的输出形状相同,可以进行加法运算。
S7:判断结构化信息是否达到预设的收敛条件,根据具体的评价标准,判断是否达到收敛条件,若达到则停止,若未达到,则可调整网络模型的参数或对科技资源本体库进行修改和完善,直到达到预设收敛条件为止。
进一步,在步骤S1中,科技资源本体库包括项目标题、作者、内容关键词、仪器名称、地点、归属、用途和价格信息。
进一步,步骤S3的各种类型根据实际需求,特定生成针对设备、项目或者人员信息的待解析文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州工业园区企业发展服务中心,未经苏州工业园区企业发展服务中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110895695.4/2.html,转载请声明来源钻瓜专利网。