[发明专利]一种智慧监管黑匣子的结构化资料处理方法在审
申请号: | 202110922294.3 | 申请日: | 2021-08-11 |
公开(公告)号: | CN113849657A | 公开(公告)日: | 2021-12-28 |
发明(设计)人: | 唐海江;王海龙;袁宇豪 | 申请(专利权)人: | 杭州云嘉健康管理有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/30;G06F40/295;G06F40/289;G06N3/04;G06N3/08 |
代理公司: | 杭州杭诚专利事务所有限公司 33109 | 代理人: | 尉伟敏 |
地址: | 311100 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 智慧 监管 黑匣子 结构 资料 处理 方法 | ||
本发明公开了一种智慧监管黑匣子的结构化资料处理方法。为了克服现有技术以规则方式的实体抽取局限性高、数据收集方式单一的问题;本发明包括:节点数据采集、数据清洗、文本特征向量化、关键实体识别、实体链接、知识对齐和知识过滤、知识图谱和实施训练过程。本方案通过一站式数据汇集、关键实体识别、实体链接和数据存储等技术,解决了多数据源、多数据类型、多数据形态的结构化存储。
技术领域
本发明涉及一种医数据处理领域,尤其涉及一种智慧监管黑匣子的结构化资料处理方法。
背景技术
知识图谱是通过图的方式,建立基于文本到对象,对象到属性的表示关系和推理关系,是自然语言处理的重要任务,并在医疗建模、智能客服等方面有了广泛的应用。知识图谱在搜集数据、定义模型和存储方式要求均较高,其不仅需要大量和给定业务领域相关的文本,还要求文本中存有广泛可用的关键信息和对应的属性值,其模型建模和存储方式也具备硬件资源的挑战性。
近年来,随着机器学习的广泛参与,以中文建模为限,在知识图谱相关技术栈中诞生了多样的模型,以Bert簇模型建立文本的向量表示,通过融合字词信息进行命名实体识别建模,以远程监督方式和注意力机制的分类模型进行实体链接和关系抽取,通过双放射机制进行句法分析中的源位置和弧标签确定。最后以neo4j为代表的图数据库进行数据的存储和检索。
例如,一种在中国专利文献上公开的“基于多数据源的医学知识图谱融合方法及装置”,其公告号CN110866124A,方法包括:分别基于第一医学知识图谱和第二医学知识图谱进行知识表示学习,获取各第一初始向量和各第二初始向量;基于预先获取的参考向量集,将各第一初始向量和各第二初始向量映射到参考向量空间中,获取各第一映射向量和各第二映射向量;根据各第一映射向量和各第二映射向量,对第一医学知识图谱和第二医学知识图谱中的知识进行融合,获取融合后的医学知识图谱。
上述方案的缺陷如下:
1)以规则方式的实体抽取局限性高
现有技术抽取实体和关键词具有高度的局限性,其只能识别较通用型的文本片段和实体,如名字、机构等,而对于大部分的行业,这些模型并不具备适用性。因此,这类任务常以人为定义的规则或使用关键词匹配来进行实体抽取,这种方式人力成本大,可迁移性差,且不能进行持续的学习能力,以适用与新实体的发现。
2)数据收集方式单一
对于可持续融合的知识图谱,其应适应多源多类型的数据输入,现有工程一般需根据数据源进行单独的功能开发和嵌入。除此之外,现有的建模方式难以支持以流式进行文本输入和知识库检索或融合。
3)底层建模不具备统计知识发掘
现有模型对不同源头的数据输入不具备持续的知识发掘和知识对齐,即不同的原字段所表示的量化特征对应的可能是同一意思,如果直接进行模型训练,会加深模型的混淆度。同时,对于未出现在现有模型或图谱中的实体、关系等知识应根据某种方式进行识别。
4)不具备主题簇分割
现有技术通过挖掘实体和关系后一般对全图数据库进行插入或推理,而相同的文本片段在不同的上下文中很可能有不同的含义,因此,这样的推理很容易引入噪音,造成图谱的混乱。
发明内容
本发明主要解决现有技术以规则方式的实体抽取局限性高、数据收集方式单一的问题;提供一种智慧监管黑匣子的结构化资料处理方法。
本发明的上述技术问题主要是通过下述技术方案得以解决的:
一种智慧监管黑匣子的结构化资料处理方法,包括以下步骤:
S1:节点数据采集;开放标准接口以原始文本为传入数据,并自动赋予节点唯一标签;
S2:数据清洗;通过预设的清洗规则,去除具有结构规则的无关字符;
S3:将输入文本以字、词、句、标签特征以及各单位的统计特征维度进行句子向量化;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州云嘉健康管理有限公司,未经杭州云嘉健康管理有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110922294.3/2.html,转载请声明来源钻瓜专利网。