[发明专利]一种传统藏医药知识图谱构建和补全方法在审

申请号：	202110798028.4	申请日：	2021-07-16
公开（公告）号：	CN115618005A	公开（公告）日：	2023-01-17
发明（设计）人：	苗方;金立标;庞龙	申请（专利权）人：	中国传媒大学
主分类号：	G06F16/36	分类号：	G06F16/36;G06F16/35;G06F16/951;G06F40/205;G06F40/242;G06F40/295;G06F40/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	100024 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种传统藏医知识图谱构建方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种传统藏医药知识图谱的构建和补全方法，其特征在于，包括以下步骤：

S1：设计藏医药知识图谱语义框架，确定实体与实体间关系的定义；

S2：构建汉藏文对应的实体词典。

S3：通过数据库导入和网络爬虫爬取的方法获得部分结构化数据，形成初始的三元组数据集。

S4：录入藏医药文本并对其进行预处理，获得文本标注语料集；

S5：用实体-关系联合抽取模型对文本语料集进行知识抽取，获得实体关系三元组；

S6：用知识图谱补全模型对实体词典和关系的各种组合进行评分，找出步骤S5中未抽取出的三元组进行补全。

S7：将S5和S6步骤产生的三元组进行人工检验，再导入图数据库形成所述知识图谱。

2.根据权利要求1所述的一种传统藏医药知识图谱的构建和补全方法，其特征在于，步骤S4包括以下流程：

S41：经过初步筛选处理后进行古籍文本分句处理，以句子为单位开展下游语义标注工作。

S42：以字为最小划分单位利用BERT预训练模型对S41产生的句子进行BIO(B-begin，I-inside，O-other)标注。

3.根据权利要求1所述的一种传统藏医药知识图谱的构建和补全方法，其特征在于，步骤S5包括以下流程：

S51：输入句子按字/词进行向量化嵌入；

S52：向量经双向长短期记忆网络与多头自注意力编码层提取字/词及其上下文语义特征；

S53：利用线性链CRF和softmax层将实体识别和关系抽取两个任务产生的结果输出。

4.根据权利要求1所述的一种传统藏医药知识图谱的构建和补全方法，其特征在于，步骤S6包括以下流程：

S61：利用TransE模型，将每一个实体、关系训练成单一的向量，使每一个三元组(头实体，关系，尾实体)符合矢量相加的关系，输出向量长度可自定义；

S62：以任意实体关系组成候选三元组；

S63：对候选三元组群进行过滤，删除知识库中已知的有效三元组；

S64：对剩余的每个三元组，利用深度金字塔卷积模型进行评分判断，评分大于阈值则视为有效三元组，小于阈值则视为无效三元组；

S65：将S64中判为有效的三元组补充到知识图谱进行补全。

5.根据权利要求1所述的一种传统藏医药知识图谱的构建和补全方法，其特征在于，步骤S5所涉及的实体-关系联合抽取模型并行完成实体识别和关系抽取两个任务。

6.根据权利要求1所述的一种传统藏医药知识图谱的构建和补全方法，其特征在于，步骤S5所涉及的实体-关系联合抽取模型采用对抗训练方法，通过在原始样本的向量表示中加入一个小的扰动值，得到对抗样本，然后混合原始样本和对抗样本一起训练模型。

7.根据权利要求1所述的一种传统藏医药知识图谱的构建和补全方法，其特征在于，步骤S6中采用深度金字塔卷积模型进行三元组有效性判断，模型由基准网络和深度卷积网络两部分组成，基准网络负责生成单一维度卷积后的特征图并作为后续输入，深度卷积网络则针对特征做进一步的卷积和池化操作，利用循环单元个数来控制卷积深度。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国传媒大学，未经中国传媒大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110798028.4/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种传统藏医药知识图谱构建和补全方法在审

专利文献下载