[发明专利]一种传统藏医药知识图谱构建和补全方法在审
申请号: | 202110798028.4 | 申请日: | 2021-07-16 |
公开(公告)号: | CN115618005A | 公开(公告)日: | 2023-01-17 |
发明(设计)人: | 苗方;金立标;庞龙 | 申请(专利权)人: | 中国传媒大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F16/951;G06F40/205;G06F40/242;G06F40/295;G06F40/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100024 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 传统 藏医 知识 图谱 构建 方法 | ||
1.一种传统藏医药知识图谱的构建和补全方法,其特征在于,包括以下步骤:
S1:设计藏医药知识图谱语义框架,确定实体与实体间关系的定义;
S2:构建汉藏文对应的实体词典。
S3:通过数据库导入和网络爬虫爬取的方法获得部分结构化数据,形成初始的三元组数据集。
S4:录入藏医药文本并对其进行预处理,获得文本标注语料集;
S5:用实体-关系联合抽取模型对文本语料集进行知识抽取,获得实体关系三元组;
S6:用知识图谱补全模型对实体词典和关系的各种组合进行评分,找出步骤S5中未抽取出的三元组进行补全。
S7:将S5和S6步骤产生的三元组进行人工检验,再导入图数据库形成所述知识图谱。
2.根据权利要求1所述的一种传统藏医药知识图谱的构建和补全方法,其特征在于,步骤S4包括以下流程:
S41:经过初步筛选处理后进行古籍文本分句处理,以句子为单位开展下游语义标注工作。
S42:以字为最小划分单位利用BERT预训练模型对S41产生的句子进行BIO(B-begin,I-inside,O-other)标注。
3.根据权利要求1所述的一种传统藏医药知识图谱的构建和补全方法,其特征在于,步骤S5包括以下流程:
S51:输入句子按字/词进行向量化嵌入;
S52:向量经双向长短期记忆网络与多头自注意力编码层提取字/词及其上下文语义特征;
S53:利用线性链CRF和softmax层将实体识别和关系抽取两个任务产生的结果输出。
4.根据权利要求1所述的一种传统藏医药知识图谱的构建和补全方法,其特征在于,步骤S6包括以下流程:
S61:利用TransE模型,将每一个实体、关系训练成单一的向量,使每一个三元组(头实体,关系,尾实体)符合矢量相加的关系,输出向量长度可自定义;
S62:以任意实体关系组成候选三元组;
S63:对候选三元组群进行过滤,删除知识库中已知的有效三元组;
S64:对剩余的每个三元组,利用深度金字塔卷积模型进行评分判断,评分大于阈值则视为有效三元组,小于阈值则视为无效三元组;
S65:将S64中判为有效的三元组补充到知识图谱进行补全。
5.根据权利要求1所述的一种传统藏医药知识图谱的构建和补全方法,其特征在于,步骤S5所涉及的实体-关系联合抽取模型并行完成实体识别和关系抽取两个任务。
6.根据权利要求1所述的一种传统藏医药知识图谱的构建和补全方法,其特征在于,步骤S5所涉及的实体-关系联合抽取模型采用对抗训练方法,通过在原始样本的向量表示中加入一个小的扰动值,得到对抗样本,然后混合原始样本和对抗样本一起训练模型。
7.根据权利要求1所述的一种传统藏医药知识图谱的构建和补全方法,其特征在于,步骤S6中采用深度金字塔卷积模型进行三元组有效性判断,模型由基准网络和深度卷积网络两部分组成,基准网络负责生成单一维度卷积后的特征图并作为后续输入,深度卷积网络则针对特征做进一步的卷积和池化操作,利用循环单元个数来控制卷积深度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国传媒大学,未经中国传媒大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110798028.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:阻隔膜及包含该阻隔膜的量子点膜
- 下一篇:一种巴西甜突变体及其应用