[发明专利]一种传统藏医药知识图谱构建和补全方法在审
申请号: | 202110798028.4 | 申请日: | 2021-07-16 |
公开(公告)号: | CN115618005A | 公开(公告)日: | 2023-01-17 |
发明(设计)人: | 苗方;金立标;庞龙 | 申请(专利权)人: | 中国传媒大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F16/951;G06F40/205;G06F40/242;G06F40/295;G06F40/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100024 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 传统 藏医 知识 图谱 构建 方法 | ||
本发明涉及知识图谱领域,公开了一种传统藏医药知识图谱的构建和补全方法。本发明通过设计藏医药知识图谱语义框架、构建汉藏文对应的实体词典、对原始文献语料预处理等准备步骤,利用实体‑关系联合抽取模型和知识图谱补全模型形成知识图谱实体关系三元组集合的构建和补全,最终形成以图数据库存储的藏医药知识图谱。本发明使用的知识抽取联合模型是将实体识别和关系抽取任务通过一个端到端模型并行实现,并通过深度卷积网络进行知识图谱补全。通过本发明的应用可以将藏医药概念语义化、知识体系化,有利于开展新型知识服务应用。
技术领域
本发明涉及知识图谱领域,具体为一种传统藏医药知识图谱的构建和补全方法。
背景技术
藏医药学是藏民族的文化瑰宝,是藏族人民长期同疾病斗争中积累下的宝贵经验。但是相关知识错综繁杂,普通人较难系统地掌握应用。目前互联网上藏医药资源多以各类图书和网页信息为主,处于比较松散的关联状态,缺乏系统化组织,其中的概念语义化、知识体系的规范化构建和知识服务方面比较滞后。构建藏医药知识图谱能够有效的解决这一问题,基于文献中的文本语义理解构建知识网络,挖掘藏医药中药材、方剂、病症等概念之间的关系。但是在构建知识图谱的过程中,因为传统医药文献的文本具有极强的专业领域特性,语言晦涩,句法结构语序等与一般文献有较大区别,常常省略句子成分,很难使用一般的自然语言处理工具进行依存分析和知识抽取。另一方面大量的藏医药文献并没有相应的中文译本,跨语言处理更增加难度。传统方案只能大量地依靠人工进行处理。为此,本发明提出一种基于深度学习技术的知识图谱构建和补全方法,能够有效的提升该项工作的自动化程度,节省人力资源,提升效率。
发明内容
本发明的目的在于克服现有技术中过于依赖自然语言处理工具,模型推理准确率不高,信息抽取不全面等问题,提供一种传统藏医药知识图谱的构建和补全方法。
为了实现上述发明目的,本发明提供了以下技术方案:
一种传统藏医药知识图谱的构建和补全方法,包括如下步骤:
S1:设计藏医药知识图谱语义框架,确定实体与实体间关系的定义;
S2:构建汉藏文对应的实体词典。
S3:通过数据库导入和网络爬虫爬取的方法获得一定数量的结构化数据,形成初始的三元组数据集。
S4:录入藏医药文本并对其进行预处理,获得文本标注语料集;
S5:用实体-关系联合抽取模型对步骤S4得到的文本语料集进行知识抽取,获得实体关系三元组;
S6:用知识图谱补全模型对实体词典和关系的各种组合进行评分,找出步骤S5中未抽取出的三元组进行补全。
S7:将S5和S6步骤产生的三元组进行人工检验,再导入Neo4j图数据库形成所述知识图谱的层级架构。
作为本发明的优选方案,所述步骤S4包括以下流程:
S41:经过初步筛选处理后进行古籍文本分句处理,以句子为单位开展下游语义标注工作。
S42:以字为最小划分单位利用BERT预训练模型对S41产生的句子进行BIO(B-begin,I-inside,O-other)标注。
作为本发明的优选方案,所述步骤S5包括以下流程:
S51:输入句子按字/词进行向量化嵌入:
S52:向量经双向长短期记忆网络与多头自注意力编码层提取出每个词及其上下文语义特征;
S53:利用线性链CRF和softmax层将实体识别和关系抽取两个任务产生的结果输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国传媒大学,未经中国传媒大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110798028.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:阻隔膜及包含该阻隔膜的量子点膜
- 下一篇:一种巴西甜突变体及其应用