[发明专利]一种基于多指标的知识图谱生成方法有效
| 申请号: | 202110436666.1 | 申请日: | 2021-04-22 |
| 公开(公告)号: | CN113065003B | 公开(公告)日: | 2023-05-26 |
| 发明(设计)人: | 杨良斌;于腊梅 | 申请(专利权)人: | 国际关系学院 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/295;G06F40/268;G06F16/951 |
| 代理公司: | 北京沃知思真知识产权代理有限公司 11942 | 代理人: | 高小艳 |
| 地址: | 100091*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 指标 知识 图谱 生成 方法 | ||
1.一种基于多指标的知识图谱生成方法,其特征在于,该生成方法具体步骤如下:
(1)信息抽取:选择待构建旅游领域知识图谱的数据源,利用数据爬虫技术获取数据源中的语料信息,同时对语料信息进行实体、实体之间关系和实体属性值抽取;
(2)知识融合:对所述实体、实体之间关系和实体属性值进行实体链接,以消除实体歧义,并进行知识合并;
(3)知识加工:以现有本体库为基础,同时对实体、实体之间关系和实体属性值进行知识推理和质量评估,形成旅游领域知识图谱;
(4)知识更新:通过自动更新方式输入新数据,同时以置信度为评判基础,对旅游领域知识图谱进行增量式的动态更新;
所述知识融合其具体过程如下:
SS1:构建旅游信息库,将所述实体链接到该旅游信息库中,消除实体歧义
SS2:利用相关性算法对来源于不同数据源的实体进行知识融合;
所述旅游信息库包括景点、餐厅、酒店、城市、省份和交通的名称和别称;
所述知识更新采用增量更新方法,其具体过程如下:
SSS1:输入更新信息,其更新信息包括实体、实体关系或实体属性中的一种;
SSS2:对所述更新信息进行置信度判断;
SSS3:若置信度处于设定阈值范围内,则将更新信息输入旅游领域知识图谱中进行增量式更新,反之,则过滤掉更新信息;
所述设定阈值范围根据实际使用情况确定;
步骤SSS2中所述置信度由多项指标共同确定,所述多项指标包括词向量、句向量和编辑距离,其计算公式为:置信度=(词向量指标+句向量指标+编辑距离指标)/3。
2.根据权利要求1所述的一种基于多指标的知识图谱生成方法,其特征在于,步骤(1)中所述数据源包括百度百科、去哪儿网、携程、猫途鹰、马蜂窝、艺龙、飞猪、驴妈妈、同程和马蜂窝;所述数据爬虫技术具体为PhantomJS和Selenium;所述信息抽取具体过程如下:
S1:实体抽取,对所述语料信息进行分词,同时去除重复词、去停用词、象声词和拟声词,并进行词性标注预处理,构成主语-谓语-宾语结构,抽取主语和宾语,得到实体;
S2:关系抽取,定义实体之间关系规则,根据关系规则对所述语料信息进行抽取,得到实体之间关系;
S3:属性抽取,定义属性规则,根据属性规则进行抽取,得到具体实体属性值;
S4:构建实体-关系-实体属性值的三元组。
3.根据权利要求2所述的一种基于多指标的知识图谱生成方法,其特征在于,步骤S1中所述实体包含景点、餐厅、酒店、城市、省份和交通的名称和别称;所述实体之间关系规则和属性规则均由专家构建,并由人工进行输入;所述实体属性值具体包括价格、客流量、星级、平均消费水平以及重游/重住数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际关系学院,未经国际关系学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110436666.1/1.html,转载请声明来源钻瓜专利网。





