[发明专利]一种目标文件知识图谱的构建方法及装置有效
| 申请号: | 201910435990.4 | 申请日: | 2019-05-23 |
| 公开(公告)号: | CN110119473B | 公开(公告)日: | 2023-02-03 |
| 发明(设计)人: | 李长亮;侯昶宇;汪美玲;唐剑波 | 申请(专利权)人: | 北京金山数字娱乐科技有限公司;成都金山数字娱乐科技有限公司 |
| 主分类号: | G06F16/9532 | 分类号: | G06F16/9532;G06F16/36 |
| 代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 马敬;项京 |
| 地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 目标 文件 知识 图谱 构建 方法 装置 | ||
本申请提供一种目标文件知识图谱的构建方法及装置,其中所述方法包括:从目标文件库中获取至少两个目标文件,形成目标文件的数据库;从所述数据库中获取所述至少两个目标文件的文件标题和文件主题;基于所述文件主题的包含关系建立主题层级,根据所述主题层级对所述文件标题进行分类和结构化处理,并得到所述文件主题与所述文件标题之间的联系;通过文件关键词权重计算算法从所述数据库中获取所述至少两个目标文件的文件关键词,并得到所述文件关键词与所述文件标题之间的联系;基于所述文件标题、文件主题和文件关键词以及所述文件标题、文件主题和文件关键词之间的联系,构建所述数据库的知识图谱。
技术领域
本申请涉及计算机技术领域,特别涉及一种目标文件知识图谱的构建方法、装置、计算设备及计算机可读存储介质。
背景技术
目前现有的搜索引擎上提供的搜索服务进针对搜索内容一般采用关键词匹配,缺乏检索结果之间的关联性,且可供用户选择的限制条件较少,不能精准定位,无法进行较为准确的检索。
发明内容
有鉴于此,本申请实施例提供了一种目标文件知识图谱的构建方法、装置、计算设备及计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本申请实施例的第一方面,提供了一种目标文件知识图谱的构建方法,包括:
从目标文件库中获取至少两个目标文件,形成目标文件的数据库;
从所述数据库中获取所述至少两个目标文件的文件标题和文件主题;
基于所述文件主题的包含关系建立主题层级,根据所述主题层级对所述文件标题进行分类和结构化处理,并得到所述文件主题与所述文件标题之间的联系;
通过文件关键词权重计算算法从所述数据库中获取所述至少两个目标文件的文件关键词,并得到所述文件关键词与所述文件标题之间的联系;
基于所述文件标题、文件主题和文件关键词以及所述文件标题、文件主题和文件关键词之间的联系,构建所述数据库的知识图谱。
可选的,在构建所述数据库的知识图谱之后,还包括:
将所述目标文件的知识图谱以属性图的形式存储至图数据库中。
可选的,在从所述数据库中获取所述至少两个目标文件的文件标题和文件主题之后,还包括:
从所述数据库中获取所述至少两个目标文件的属性信息;
确定所述文件标题对应的目标文件的属性信息,所述目标文件的属性信息包括目标文件的成文日期、文件摘要、发文机关、发布日期、发文字号和文件原文链接;
基于所述文件标题、文件主题和文件关键词以及所述文件标题、文件主题和文件关键词之间的联系,构建所述数据库的知识图谱包括:
确定所述文件标题、文件主题和文件关键词在知识图谱中对应的实体;
根据所述文件标题、文件主题和文件关键词之间的联系确定所述实体之间的关系;
根据所述文件标题对应的目标文件的属性信息确定所述文件标题对应的实体的属性;
基于所述实体和实体之间的关系以及所述实体和实体的属性确定知识图谱三元组;
根据所述知识图谱三元组构建所述数据库的知识图谱。
可选的,基于所述文件主题的包含关系建立主题层级,根据所述主题层级对所述文件标题进行分类和结构化处理包括:
根据预设的领域范围确定所述文件主题的包含关系;
根据所述文件主题的包含关系建立主题层级;
确定所述文件标题对应的文件主题;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山数字娱乐科技有限公司;成都金山数字娱乐科技有限公司,未经北京金山数字娱乐科技有限公司;成都金山数字娱乐科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910435990.4/2.html,转载请声明来源钻瓜专利网。





