[发明专利]知识图谱的确定方法、装置、计算机设备及存储介质有效
| 申请号: | 202110499034.X | 申请日: | 2021-05-08 |
| 公开(公告)号: | CN113190687B | 公开(公告)日: | 2023-03-24 |
| 发明(设计)人: | 程明飞;顾磊;陈骁 | 申请(专利权)人: | 上海爱数信息技术股份有限公司 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36 |
| 代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 201112 上海市闵行*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 知识 图谱 确定 方法 装置 计算机 设备 存储 介质 | ||
1.一种知识图谱的确定方法,其特征在于,包括:
获取文档内容,并确定所述文档内容对应的文档格式类型;
在所述文档内容中,查询与所述文档格式类型匹配的至少一个目标格式位置处的文本,并确定文档知识;所述文档知识包括文档夹名称、文档名称、文档各级标题和文档正文的文本;
根据各所述文档知识,确定所述文档内容对应的知识图谱;
所述在所述文档内容中,查询与所述文档格式类型匹配的至少一个目标格式位置处的文本,并确定文档知识,包括:
根据所述文档格式类型,在所述文档内容的与所述文档格式类型匹配的至少一个目标格式位置处,提取至少一个结构类型的文本;
根据三元组结构类型配置信息,对各所述结构类型的文本进行组合,形成至少一个三元组,并确定为文档知识;
所述结构类型包括下述至少一项:文档类型、标题类型和正文类型,所述三元组结构类型配置信息包括下述至少一项:文档到标题配置信息、文档到正文配置信息和标题到正文配置信息;
所述根据各所述文档知识,确定所述文档内容对应的知识图谱,包括:
根据各所述文档知识,构建初始图谱;
将预设的业务知识库与所述初始图谱进行融合,形成所述文档内容对应的知识图谱;
所述将预设的业务知识库与所述初始图谱进行融合,形成所述文档内容对应的知识图谱,包括:
在所述初始图谱中,对各所述文档知识进行命名实体识别,得到各所述文档知识对应的命名实体;
根据预设的业务知识库对各所述文档知识包括的命名实体进行实体对齐,并与所述业务知识库中实体建立链接;所述业务知识库根据业务任务配置的实体形成的知识库;所述文档为企业文档,所述业务知识库实体为与企业关联的实体;
将所述业务知识库和初始图谱进行融合,并添加所述链接关联的数据,形成所述文档内容对应的知识图谱。
2.根据权利要求1所述的方法,其特征在于,在确定所述文档内容对应的知识图谱之后,还包括:
接收文档查询请求,并识别查询内容,所述查询内容包括实体和/或关键词;
采用至少一种查询方式,对所述查询内容进行查询,得到至少一个查询文档;
对各所述查询文档进行排序,得到查询结果。
3.根据权利要求2所述的方法,其特征在于,所述对各所述查询文档进行排序,包括:
针对每个所述查询文档,计算所述查询文档对应的至少一个因素得分;
根据各所述查询文档对应的因素得分,以及预设的因素得分对应的权重,计算各所述查询文档的查询得分;
根据各所述查询文档的查询得分,对各所述查询文档进行排序。
4.一种知识图谱的确定装置,其特征在于,所述知识图谱的确定装置实现如权利要求1-3中任一所述的知识图谱的确定方法,包括:
文档格式类型获取模块,用于获取文档内容,并确定所述文档内容对应的文档格式类型;
文档知识提取模块,用于在所述文档内容中,查询与所述文档格式类型匹配的至少一个目标格式位置处的文本,并确定文档知识;
知识图谱确定模块,用于根据各所述文档知识,确定所述文档内容对应的知识图谱。
5.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-3中任一所述的知识图谱的确定方法。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-3中任一所述的知识图谱的确定方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海爱数信息技术股份有限公司,未经上海爱数信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110499034.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种内科护理床
- 下一篇:基于不同分子标记的葱属蔬菜资源系统分类方法及应用





