[发明专利]一种基于知识图谱的科技创新资讯分类方法和存储设备在审
申请号: | 202111091874.9 | 申请日: | 2021-09-17 |
公开(公告)号: | CN113761208A | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 石宝玉;黄丽丽;薄拾 | 申请(专利权)人: | 福州数据技术研究院有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F40/30;G06N3/04;G06N3/08;G06N5/02 |
代理公司: | 福州市景弘专利代理事务所(普通合伙) 35219 | 代理人: | 魏小霞;林祥翔 |
地址: | 350000 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知识 图谱 科技 创新 资讯 分类 方法 存储 设备 | ||
本发明涉及数据处理技术领域,特别涉及一种基于知识图谱的科技创新资讯分类方法和存储设备。所述一种基于知识图谱的科技创新资讯分类方法,包括步骤:获取目标数据,对所述目标数据进行知识抽取和数据整合,形成初步知识表示;进行实体对齐,形成标准知识表示;进行质量评估形成知识图谱;以所述知识图谱为基础,建立知识图谱与领域分类的映射,形成知识关联;根据知识关联结果对目标资讯进行分类。
技术领域
本发明涉及数据处理技术领域,特别涉及一种基于知识图谱的科技创新资讯分类方法和存储设备。
背景技术
众所周知,科技创新是人类社会发展的重要引起,是应对许多全球性挑战的有力武器。相关单位和企业纷纷布局建立科技创新平台,广泛收集整理科技创新资讯,挖掘科技创新动力。随着信息资源快速增长,高效准确地将海量科技创新资讯进行智能化分类,能够帮助科研及专业人员进行有效分析,推动科技创新进程。
如:专利号CN110851607A公开了“资讯分类模型的训练方法及装置”,通过采集训练资讯,得到训练资讯集;对训练资讯集中的训练资讯进行多类别标注;对多类别标注后的训练资讯集进行切词和过滤,得到训练词集;将训练词集作为输入,根据改进朴素贝叶斯模型进行模型训练,得到资讯分类模型。资讯分类模型通过多类别标注后的训练资讯集进行模型训练,最终资讯分类模型得到的输出结果是输入资讯属于不同资讯类别的概率。
以上专利存在以下缺点:
专利号CN110851607A对训练集依赖度大,样本数量差别大会对算法结果带来负面影响,分类结果容易偏向于样本数量多的类型。并且有领域可扩充性不强、领域类别细粒度差异带来精度差异等问题。
专利号CN113239201A公开了“一种基于知识图谱的科技文献分类方法”,包括以下步骤:文献获取步骤:获取待分类的科技文献;文本预处理步骤:将科技文献进行词法分析,得到词性标注,根据该词性标注进行过滤;特征提取步骤:统计科技文献中每个词语出现的次数,并根据包含该词语的科技文献的个数,计算每篇科技文献中的词向量,进行文本特征向量化表示;文献分类步骤:根据文本特征向量化表示的结构进行文献分类。
以上专利存在以下缺点:
专利号CN113239201A针对科技文献中的单位、作者进行数据关系清洗与消歧,文献内容部分采用FastText模型进行文献分类,对术语概念的实体抽取与关系挖掘不足。
发明内容
为此,需要提供一种基于知识图谱的科技创新资讯分类方法,用以解决现有科技咨询分类方法适用性低及分类准确度低等技术问题,具体技术方案如下:
一种基于知识图谱的科技创新资讯分类方法,包括步骤:
获取目标数据,对所述目标数据进行知识抽取和数据整合,形成初步知识表示;
进行实体对齐,形成标准知识表示;
进行质量评估形成知识图谱;
以所述知识图谱为基础,建立知识图谱与领域分类的映射,形成知识关联;
根据知识关联结果对目标资讯进行分类。
进一步的,所述“获取目标数据,对所述目标数据进行知识抽取和数据整合,形成初步知识表示”,具体还包括步骤:
所述目标数据包括但不限于:结构化数据、半结构化数据、非结构化数据;
对所述半结构化数据和所述非结构化数据预处理后进行知识抽取,所述知识抽取包括但不限于:实体抽取、关系抽取、属性抽取;
对所述结构化数据进行数据整合;
整合知识抽取后的半结构化数据和非结构化数据,及数据整合后的结构化数据形成初步知识表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州数据技术研究院有限公司,未经福州数据技术研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111091874.9/2.html,转载请声明来源钻瓜专利网。