[发明专利]一种基于多指标的知识图谱生成方法有效

专利信息
申请号: 202110436666.1 申请日: 2021-04-22
公开(公告)号: CN113065003B 公开(公告)日: 2023-05-26
发明(设计)人: 杨良斌;于腊梅 申请(专利权)人: 国际关系学院
主分类号: G06F16/36 分类号: G06F16/36;G06F40/295;G06F40/268;G06F16/951
代理公司: 北京沃知思真知识产权代理有限公司 11942 代理人: 高小艳
地址: 100091*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 指标 知识 图谱 生成 方法
【权利要求书】:

1.一种基于多指标的知识图谱生成方法,其特征在于,该生成方法具体步骤如下:

(1)信息抽取:选择待构建旅游领域知识图谱的数据源,利用数据爬虫技术获取数据源中的语料信息,同时对语料信息进行实体、实体之间关系和实体属性值抽取;

(2)知识融合:对所述实体、实体之间关系和实体属性值进行实体链接,以消除实体歧义,并进行知识合并;

(3)知识加工:以现有本体库为基础,同时对实体、实体之间关系和实体属性值进行知识推理和质量评估,形成旅游领域知识图谱;

(4)知识更新:通过自动更新方式输入新数据,同时以置信度为评判基础,对旅游领域知识图谱进行增量式的动态更新;

所述知识融合其具体过程如下:

SS1:构建旅游信息库,将所述实体链接到该旅游信息库中,消除实体歧义

SS2:利用相关性算法对来源于不同数据源的实体进行知识融合;

所述旅游信息库包括景点、餐厅、酒店、城市、省份和交通的名称和别称;

所述知识更新采用增量更新方法,其具体过程如下:

SSS1:输入更新信息,其更新信息包括实体、实体关系或实体属性中的一种;

SSS2:对所述更新信息进行置信度判断;

SSS3:若置信度处于设定阈值范围内,则将更新信息输入旅游领域知识图谱中进行增量式更新,反之,则过滤掉更新信息;

所述设定阈值范围根据实际使用情况确定;

步骤SSS2中所述置信度由多项指标共同确定,所述多项指标包括词向量、句向量和编辑距离,其计算公式为:置信度=(词向量指标+句向量指标+编辑距离指标)/3。

2.根据权利要求1所述的一种基于多指标的知识图谱生成方法,其特征在于,步骤(1)中所述数据源包括百度百科、去哪儿网、携程、猫途鹰、马蜂窝、艺龙、飞猪、驴妈妈、同程和马蜂窝;所述数据爬虫技术具体为PhantomJS和Selenium;所述信息抽取具体过程如下:

S1:实体抽取,对所述语料信息进行分词,同时去除重复词、去停用词、象声词和拟声词,并进行词性标注预处理,构成主语-谓语-宾语结构,抽取主语和宾语,得到实体;

S2:关系抽取,定义实体之间关系规则,根据关系规则对所述语料信息进行抽取,得到实体之间关系;

S3:属性抽取,定义属性规则,根据属性规则进行抽取,得到具体实体属性值;

S4:构建实体-关系-实体属性值的三元组。

3.根据权利要求2所述的一种基于多指标的知识图谱生成方法,其特征在于,步骤S1中所述实体包含景点、餐厅、酒店、城市、省份和交通的名称和别称;所述实体之间关系规则和属性规则均由专家构建,并由人工进行输入;所述实体属性值具体包括价格、客流量、星级、平均消费水平以及重游/重住数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际关系学院,未经国际关系学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110436666.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top