[发明专利]一种目标文件知识图谱的构建方法及装置有效
| 申请号: | 201910435990.4 | 申请日: | 2019-05-23 |
| 公开(公告)号: | CN110119473B | 公开(公告)日: | 2023-02-03 |
| 发明(设计)人: | 李长亮;侯昶宇;汪美玲;唐剑波 | 申请(专利权)人: | 北京金山数字娱乐科技有限公司;成都金山数字娱乐科技有限公司 |
| 主分类号: | G06F16/9532 | 分类号: | G06F16/9532;G06F16/36 |
| 代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 马敬;项京 |
| 地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 目标 文件 知识 图谱 构建 方法 装置 | ||
1.一种目标文件知识图谱的构建方法,其特征在于,包括:
从目标文件库中获取至少两个目标文件,形成目标文件的数据库;
从所述数据库中获取每个目标文件的文件标题和文件主题,其中,每个目标文件的文件标题和文件主题分别为该目标文件的文件名称和文件类型;
基于所述文件主题的包含关系建立主题层级,根据所述主题层级对所述文件标题进行分类和结构化处理,并得到每个目标文件的文件主题与文件标题之间的联系,其中,所述包含关系基于所述文件主题的语义确定;
通过TF-IDF算法从所述数据库中获取每个目标文件的文件关键词,并得到每个目标文件的文件关键词与文件标题之间的联系;
基于所述文件标题、文件主题和文件关键词以及所述文件标题、文件主题和文件关键词之间的联系,构建所述数据库的知识图谱,包括:以每个目标文件的文件标题、文件主题和文件关键词作为实体,以每个目标文件的文件标题、文件主题和文件关键词之间的联系作为实体之间的关系,建立所述数据库的知识图谱。
2.根据权利要求1所述的方法,其特征在于,在构建所述数据库的知识图谱之后,还包括:
将所述目标文件的知识图谱以属性图的形式存储至图数据库中。
3.根据权利要求1所述的方法,其特征在于,在从所述数据库中获取每个目标文件的文件标题和文件主题之后,还包括:
从所述数据库中获取所述至少两个目标文件的属性信息;
确定所述文件标题对应的目标文件的属性信息,所述目标文件的属性信息包括目标文件的成文日期、文件摘要、发文机关、发布日期、发文字号和文件原文链接;
基于所述文件标题、文件主题和文件关键词以及所述文件标题、文件主题和文件关键词之间的联系,构建所述数据库的知识图谱包括:
确定所述文件标题、文件主题和文件关键词在知识图谱中对应的实体;
根据所述文件标题、文件主题和文件关键词之间的联系确定所述实体之间的关系;
根据所述文件标题对应的目标文件的属性信息确定所述文件标题对应的实体的属性;
基于所述实体和实体之间的关系以及所述实体和实体的属性确定知识图谱三元组;
根据所述知识图谱三元组构建所述数据库的知识图谱。
4.根据权利要求1所述的方法,其特征在于,基于所述文件主题的包含关系建立主题层级,根据所述主题层级对所述文件标题进行分类和结构化处理包括:
根据预设的领域范围确定所述文件主题的包含关系;
根据所述文件主题的包含关系建立主题层级;
确定所述文件标题对应的文件主题;
根据所述文件标题对应的文件主题将所述文件标题添加至对应的主题层级内。
5.根据权利要求1所述的方法,其特征在于,通过TF-IDF算法从所述数据库中获取每个目标文件的文件关键词包括:
通过TF-IDF算法计算出每个目标文件的语料中出现的每个词语的权重;
将每个词语的权重由高到低进行排序,选取前n个词语作为该目标文件的文件关键词,其中,n为大于等于1的正整数。
6.根据权利要求1所述的方法,其特征在于,在构建所述数据库的知识图谱之后,还包括:
根据用户的请求,基于所述目标文件的知识图谱实现对所述目标文件的数据库的智能搜索。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山数字娱乐科技有限公司;成都金山数字娱乐科技有限公司,未经北京金山数字娱乐科技有限公司;成都金山数字娱乐科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910435990.4/1.html,转载请声明来源钻瓜专利网。





