[发明专利]一种智慧监管黑匣子的结构化资料处理方法在审

专利信息
申请号: 202110922294.3 申请日: 2021-08-11
公开(公告)号: CN113849657A 公开(公告)日: 2021-12-28
发明(设计)人: 唐海江;王海龙;袁宇豪 申请(专利权)人: 杭州云嘉健康管理有限公司
主分类号: G06F16/36 分类号: G06F16/36;G06F40/30;G06F40/295;G06F40/289;G06N3/04;G06N3/08
代理公司: 杭州杭诚专利事务所有限公司 33109 代理人: 尉伟敏
地址: 311100 浙江省杭州市余*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 智慧 监管 黑匣子 结构 资料 处理 方法
【说明书】:

本发明公开了一种智慧监管黑匣子的结构化资料处理方法。为了克服现有技术以规则方式的实体抽取局限性高、数据收集方式单一的问题;本发明包括:节点数据采集、数据清洗、文本特征向量化、关键实体识别、实体链接、知识对齐和知识过滤、知识图谱和实施训练过程。本方案通过一站式数据汇集、关键实体识别、实体链接和数据存储等技术,解决了多数据源、多数据类型、多数据形态的结构化存储。

技术领域

本发明涉及一种医数据处理领域,尤其涉及一种智慧监管黑匣子的结构化资料处理方法。

背景技术

知识图谱是通过图的方式,建立基于文本到对象,对象到属性的表示关系和推理关系,是自然语言处理的重要任务,并在医疗建模、智能客服等方面有了广泛的应用。知识图谱在搜集数据、定义模型和存储方式要求均较高,其不仅需要大量和给定业务领域相关的文本,还要求文本中存有广泛可用的关键信息和对应的属性值,其模型建模和存储方式也具备硬件资源的挑战性。

近年来,随着机器学习的广泛参与,以中文建模为限,在知识图谱相关技术栈中诞生了多样的模型,以Bert簇模型建立文本的向量表示,通过融合字词信息进行命名实体识别建模,以远程监督方式和注意力机制的分类模型进行实体链接和关系抽取,通过双放射机制进行句法分析中的源位置和弧标签确定。最后以neo4j为代表的图数据库进行数据的存储和检索。

例如,一种在中国专利文献上公开的“基于多数据源的医学知识图谱融合方法及装置”,其公告号CN110866124A,方法包括:分别基于第一医学知识图谱和第二医学知识图谱进行知识表示学习,获取各第一初始向量和各第二初始向量;基于预先获取的参考向量集,将各第一初始向量和各第二初始向量映射到参考向量空间中,获取各第一映射向量和各第二映射向量;根据各第一映射向量和各第二映射向量,对第一医学知识图谱和第二医学知识图谱中的知识进行融合,获取融合后的医学知识图谱。

上述方案的缺陷如下:

1)以规则方式的实体抽取局限性高

现有技术抽取实体和关键词具有高度的局限性,其只能识别较通用型的文本片段和实体,如名字、机构等,而对于大部分的行业,这些模型并不具备适用性。因此,这类任务常以人为定义的规则或使用关键词匹配来进行实体抽取,这种方式人力成本大,可迁移性差,且不能进行持续的学习能力,以适用与新实体的发现。

2)数据收集方式单一

对于可持续融合的知识图谱,其应适应多源多类型的数据输入,现有工程一般需根据数据源进行单独的功能开发和嵌入。除此之外,现有的建模方式难以支持以流式进行文本输入和知识库检索或融合。

3)底层建模不具备统计知识发掘

现有模型对不同源头的数据输入不具备持续的知识发掘和知识对齐,即不同的原字段所表示的量化特征对应的可能是同一意思,如果直接进行模型训练,会加深模型的混淆度。同时,对于未出现在现有模型或图谱中的实体、关系等知识应根据某种方式进行识别。

4)不具备主题簇分割

现有技术通过挖掘实体和关系后一般对全图数据库进行插入或推理,而相同的文本片段在不同的上下文中很可能有不同的含义,因此,这样的推理很容易引入噪音,造成图谱的混乱。

发明内容

本发明主要解决现有技术以规则方式的实体抽取局限性高、数据收集方式单一的问题;提供一种智慧监管黑匣子的结构化资料处理方法。

本发明的上述技术问题主要是通过下述技术方案得以解决的:

一种智慧监管黑匣子的结构化资料处理方法,包括以下步骤:

S1:节点数据采集;开放标准接口以原始文本为传入数据,并自动赋予节点唯一标签;

S2:数据清洗;通过预设的清洗规则,去除具有结构规则的无关字符;

S3:将输入文本以字、词、句、标签特征以及各单位的统计特征维度进行句子向量化;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州云嘉健康管理有限公司,未经杭州云嘉健康管理有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110922294.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top