[发明专利]一种智慧监管黑匣子的结构化资料处理方法在审
申请号: | 202110922294.3 | 申请日: | 2021-08-11 |
公开(公告)号: | CN113849657A | 公开(公告)日: | 2021-12-28 |
发明(设计)人: | 唐海江;王海龙;袁宇豪 | 申请(专利权)人: | 杭州云嘉健康管理有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/30;G06F40/295;G06F40/289;G06N3/04;G06N3/08 |
代理公司: | 杭州杭诚专利事务所有限公司 33109 | 代理人: | 尉伟敏 |
地址: | 311100 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 智慧 监管 黑匣子 结构 资料 处理 方法 | ||
1.一种智慧监管黑匣子的结构化资料处理方法,其特征在于,包括以下步骤:
S1:节点数据采集;开放标准接口以原始文本为传入数据,并自动赋予节点唯一标签;
S2:数据清洗;通过预设的清洗规则,去除具有结构规则的无关字符;
S3:将输入文本以字、词、句、标签特征以及各单位的统计特征维度进行句子向量化;
S4:关键实体识别;将各节点采集的文本数据通过预先训练好的实体提取模型识别,输出该条文本数据中包含的所有关键实体及其业务属性字段;
S5:实体链接,将步骤S4中识别的实体通过语义识别提取实体间的关系;
S6:收集从步骤S5中实体链接产生的所有关系结果,进行知识对齐和知识过滤;
S7:知识图谱;在获取到实体及其对应的关系后,将所有数据节点被识别到的新的关系存入图数据库中,并开放接口进行检索和查询;
S8:实施训练;定时采集知识过滤后的结果,并进行关键实体识别和实体链接的神经网络的再训练和调优。
2.根据权利要求1所述的一种智慧监管黑匣子的结构化资料处理方法,其特征在于,通过键值json方式传入指定数据,键名将以属性附带解析数据以节点方式存入图数据库。
3.根据权利要求1所述的一种智慧监管黑匣子的结构化资料处理方法,其特征在于,所述的步骤S3中,输入文本首先通过分词分字算法进行分割,然后通过预训练的向量库进行各单位的向量映射;对于统计特征,系统以 one-hot、Embedding或绝对数的方式进行表示;
统计特征包括历史出现频数、词干、所在句子的索引位置、拼接前后单位后历史是否出现、字词属性和该单位在当前词的位置,词开头以“0”表示,词中以“1”表示,词结尾以“2”表示。
4.根据权利要求1或3所述的一种智慧监管黑匣子的结构化资料处理方法,其特征在于,所述的实体提取模型使用神经网络进行建模,以字特征、词特征、索引位置、该单位在当前词的位置四项特征融合,通过一层双向长短记忆模型,并结合自注意力机制,采用全路径条件随机场进行结果解码,输出句子中所有潜在的关键实体和对应的业务属性。
5.根据权利要求1或3所述的一种智慧监管黑匣子的结构化资料处理方法,其特征在于,所述的语义识别包括预设关系链接、已有图谱检索、远程监督关系连接和已存句法树;
预设关系链接:
通过将提取的实体进行归类到预定义好的关系集,从而识别实体间的关系;采用神经网络进行提取,获取字、词向量,融入抽取到的每对实体的索引位置、标签特征,采用卷积神经网络和仿射注意机制层,输出每对实体的关系;
已有图谱检索:
对于提取到的实体对,若能直接在已有的图谱数据库找到相应的关系,则直接输出;否则采用其他的方法;
远程监督关系连接:
由一个通用中文的知识图谱进行发掘每对实体的新关系,如果该对实体在图谱中能够找到链接关系,输出其关系,并存入最终的数据库;
已存句法树:
通过识别文本每个字词语法属性,分析句子各个语言单位之间的语义关联,将语义关联以依存结构呈现。
6.根据权利要求5所述的一种智慧监管黑匣子的结构化资料处理方法,其特征在于,所述的步骤S6包括以下步骤:
S601:知识对齐;
通过相似度的方式,用于融合预设关系链接、远程监督关系链接、依存句法树三个子模块产生的关系,产生统一的关系表示;
S602:知识过滤;
对提取到的关系进行统计,以统计指标和置信度测试排除低频关系。
7.根据权利要求1所述的一种智慧监管黑匣子的结构化资料处理方法,其特征在于,还包括主题建模;对搜集的节点文本数据进行无监督的主题发掘后,为每个输入的数据进行主题标记,并在数据库存取时,依据相应主题进行相关的操作。
8.根据权利要求1所述的一种智慧监管黑匣子的结构化资料处理方法,其特征在于,所述的关键实体识别的训练输入数据包括文本和实体位置和对应标签;实体链接的训练输入数据包括实体位置和对应标签和关系标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州云嘉健康管理有限公司,未经杭州云嘉健康管理有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110922294.3/1.html,转载请声明来源钻瓜专利网。