[发明专利]一种基于多指标的知识图谱生成方法有效

专利信息
申请号: 202110436666.1 申请日: 2021-04-22
公开(公告)号: CN113065003B 公开(公告)日: 2023-05-26
发明(设计)人: 杨良斌;于腊梅 申请(专利权)人: 国际关系学院
主分类号: G06F16/36 分类号: G06F16/36;G06F40/295;G06F40/268;G06F16/951
代理公司: 北京沃知思真知识产权代理有限公司 11942 代理人: 高小艳
地址: 100091*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 指标 知识 图谱 生成 方法
【说明书】:

本发明公开了一种基于多指标的知识图谱生成方法,属于计算机文本处理技术领域,该生成方法具体步骤如下:(1)信息抽取;(2)知识融合;(3)知识加工;(4)知识更新;本发明将旅游网站和百度百科作为数据源,通过分词、去除词和词性标注作为抽取方式对实体进行抽取,同时基于专家定义规则进行实体关系和实体属性的抽取,其数据抽取较为精准,有利于提高后续旅游领域图谱应用搜索准确率;此外,本发明将置信度作为评判基础,该置信度由词向量、句向量和编辑距离构成,通过置信度对本发明旅游领域知识图谱进行长期增量式更新,从而有利于长期保障该旅游领域知识图谱的质量,持续提高该旅游领域知识图谱的精准搜索能力。

技术领域

本发明涉及计算机文本处理技术领域,尤其涉及一种基于多指标的知识图谱生成方法。

背景技术

经检索,中国专利号CN110347843A公开了一种基于知识图谱的中文旅游领域知识服务平台构建方法,该发明方法虽然能够提供一站式的综合性服务,但无法进行长期高质量的更新,不利于应用于多变的旅游领域;知识图谱(Knowledge Graph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系;目前,随着互联网技术和旅游业的快速发展,用户可以使用电脑或智能手机等设备在互联网上方便的查看相关旅游信息;尽管如此,在用户进行旅游知识查询时,仍需花费大量时间和精力,如何充分利用当前互联网中的大量相关数据为用户自动提供精确的旅行知识服务,是当前旅游领域一个亟待解决的问题;因此,发明出一种基于多指标的知识图谱生成方法变得尤为重要;

目前,与通用知识图谱相比,旅游领域知识图谱的构建和研究相对较少,而现有旅游领域知识图谱也存在很多问题,其数据源和数据抽取不够精准,导致旅游领域图谱搜索准确率较差,并且此类旅游领域图谱不具备自动更新的能力,对于多变得旅游领域的来说,此类旅游领域图谱的应用场景和时间非常有限,为此,我们提出一种基于多指标的知识图谱生成方法。

发明内容

本发明的目的是为了解决现有技术中存在的缺陷,而提出的一种基于多指标的知识图谱生成方法。

为了实现上述目的,本发明采用了如下技术方案:

一种基于多指标的知识图谱生成方法,该生成方法具体步骤如下:

(1)信息抽取:选择待构建旅游领域知识图谱的数据源,利用数据爬虫技术获取数据源中的语料信息,同时对语料信息进行实体、实体之间关系和实体属性值抽取;

(2)知识融合:对所述实体、实体之间关系和实体属性值进行实体链接,以消除实体歧义,并进行知识合并;

(3)知识加工:以现有本体库为基础,同时对实体、实体之间关系和实体属性值进行知识推理和质量评估,形成旅游领域知识图谱;

(4)知识更新:通过自动更新方式输入新数据,同时以置信度为评判基础,对旅游领域知识图谱进行增量式的动态更新。

进一步地,步骤(1)中所述数据源包括百度百科、去哪儿网、携程、猫途鹰、马蜂窝、艺龙、飞猪、驴妈妈、同程和马蜂窝;所述数据爬虫技术具体为PhantomJS和Selenium;所述信息抽取具体过程如下:

S1:实体抽取,对所述语料信息进行分词,同时去除重复词、去停用词、象声词和拟声词,并进行词性标注预处理,构成主语-谓语-宾语结构,抽取主语和宾语,得到实体;

S2:关系抽取,定义实体之间关系规则,根据关系规则对所述语料信息进行抽取,得到实体之间关系;

S3:属性抽取,定义属性规则,根据属性规则进行抽取,得到具体实体属性值;

S4:构建实体-关系-实体属性值的三元组。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际关系学院,未经国际关系学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110436666.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top