[发明专利]数据索引构建方法、装置、电子设备和计算机可读介质在审
| 申请号: | 202211621670.6 | 申请日: | 2022-12-16 |
| 公开(公告)号: | CN115982378A | 公开(公告)日: | 2023-04-18 |
| 发明(设计)人: | 吴怡;蒋松含;周凯;邵元勋 | 申请(专利权)人: | 重庆大牛认知科技有限公司 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/31;G06F40/30;G06F40/295;G06F16/332 |
| 代理公司: | 北京星通盈泰知识产权代理有限公司 11952 | 代理人: | 夏晶 |
| 地址: | 401121 重庆市渝北区龙溪*** | 国省代码: | 重庆;50 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数据 索引 构建 方法 装置 电子设备 计算机 可读 介质 | ||
本公开的实施例公开了数据索引构建方法、装置、电子设备和计算机可读介质,数据处理技术领域。该方法的具体实施方式包括:对初始数据进行抽取处理得到目标数据,基于上述目标数据集构建知识图谱;根据上述知识图谱中的语义信息,构建语义信息向量;根据上述语义信息向量构建数据索引。该实施方式通过对初始数据进行抽取处理得到目标数据,基于上述目标数据集构建知识图谱,根据上述知识图谱中的语义信息,构建语义信息向量,根据上述语义信息向量构建数据索引。能够利用知识图谱的实体进行语义拓展、利用实体和单词之间的交互获取更多的语义匹配信息等,并且能够提供更加精准快速的语义检索功能。
技术领域
本公开的实施例涉及数据处理技术领域,具体涉及数据索引构建方法、装置、电子设备和计算机可读介质。
背景技术
相似案例检索是司法领域的一项重要任务,也是具有重要实践意义的应用方向,是司法实践中实现“类案同判”、“类案类判”的重要辅助手段,在司法领域拥有广泛的适用环境。
当前实现智能检索系统常常使用基于词向量的语义搜索算法。利用词向量方法,可以计算词汇间的语法和语义的线性相似度,所有词汇的语法和语义的线性相似度,是指词汇的语法相似度和语义相似度可进行近似的线性计算。
实际应用场景中纠纷案件存在较为明显和统一的类别区分,包括民间借贷纠纷、劳动纠纷、工伤纠纷等,且卷宗文本通常较长,如果只把每一份卷宗文本作为独立的数据进行处理,使用传统的文档检索,则数据库的占用空间将会较大,且没有充分利用到卷宗文件内在的关联与共性,得到的检索效果将会相对降低。
发明内容
有鉴于此,本公开实施例提供了一种数据索引构建方法、装置、电子设备和计算机可读介质,以解决现有技术中如何针对司法案件进行检索的问题。
本公开实施例的第一方面,提供了一种数据索引构建方法,包括:对初始数据进行抽取处理得到目标数据,基于上述目标数据集构建知识图谱;根据上述知识图谱中的语义信息,构建语义信息向量;根据上述语义信息向量构建数据索引。
在一些实施例的一些可选的实现方式中,上述对初始数据进行抽取处理得到目标数据,包括:从上述初始数据中抽取初始实体信息和初始关系信息;对上述初始实体信息和初始关系信息进行数据清洗,得到目标实体信息和目标关系信息;根据上述目标实体信息和上述目标关系信息,确定目标数据。
在一些实施例的一些可选的实现方式中,上述基于上述目标数据集构建知识图谱,包括:根据上述目标数据确定三元组数据和属性数据;基于上述三元组数据以及上述属性数据构建知识图谱。
在一些实施例的一些可选的实现方式中,上述根据上述知识图谱中的语义信息,构建语义信息向量,包括:基于向量化召回优化算法,对上述知识图谱中的语义信息进行处理,构建语义信息向量。
在一些实施例的一些可选的实现方式中,上述基于向量化召回优化算法,对上述知识图谱中的语义信息进行处理,构建语义信息向量,包括:基于上述向量化召回优化算法确定初始处理模型;确定与上述知识图谱中的语义信息相关的训练集,并根据上述训练集对上述初始处理模型进行训练,得到目标处理模型;基于上述目标处理模型对上述知识图谱中的语义信息进行处理,得到语义信息向量。
在一些实施例的一些可选的实现方式中,上述根据上述语义信息向量构建数据索引,包括:确定索引构建模型,根据上述语义信息向量对上述索引构建模型进行训练,得到目标索引构建模型;基于上述目标索引构建模型,确定数据索引。
在一些实施例的一些可选的实现方式中,上述方法还包括:基于上述数据索引进行语义检索。
本公开实施例的第二方面,提供了一种数据索引构建装置,装置包括:图谱构建单元,被配置成对初始数据进行抽取处理得到目标数据,基于上述目标数据集构建知识图谱;向量构建单元,被配置成根据上述知识图谱中的语义信息,构建语义信息向量;索引构建单元,被配置成根据上述语义信息向量构建数据索引。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大牛认知科技有限公司,未经重庆大牛认知科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211621670.6/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





