[发明专利]医疗领域知识图谱构建方法、装置、设备及存储介质在审
| 申请号: | 202010592333.3 | 申请日: | 2020-06-24 |
| 公开(公告)号: | CN111831908A | 公开(公告)日: | 2020-10-27 |
| 发明(设计)人: | 张圣 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
| 主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/36;G06F40/279;G06F16/332 |
| 代理公司: | 深圳市明日今典知识产权代理事务所(普通合伙) 44343 | 代理人: | 王杰辉 |
| 地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 医疗 领域 知识 图谱 构建 方法 装置 设备 存储 介质 | ||
1.一种医疗领域知识图谱构建方法,其特征在于,包括:
对医学领域相关的垂直性网站进行知识抽取,存入知识库;以及,
对百科类网站进行知识抽取,对抽取到的知识数据进行实体文本识别,将识别到的所述实体文本输入到预先训练的实体领域识别模型中,将识别结果为医疗领域实体的实体文本所对应的知识数据存入所述知识库;
对所述知识库中的数据进行知识加工;
对知识加工后的数据进行质量评估;
将通过质量评估的数据构建成医疗领域知识图谱;
将所述医疗领域知识图谱应用于医学相关知识智能问答。
2.根据权利要求1所述的医疗领域知识图谱构建方法,其特征在于,所述将识别到的所述实体文本输入到预先训练的实体领域识别模型中的步骤包括:
将实体文本分词处理,输入到Token Embedding层,得到词向量e1,e2…,en;
将词向量e1,e2…,en输入LSTM层,得到隐藏向量九1,九2…,九n;
将隐藏向量进行Attention计算得到表征向量v,Attention计算过程如下:
v=∑iαihi,i=1,...,n;
将表征向量v输入全连接层得到输出结果,具体公式为y=sigmoid(W*v),其中y为所述识别结果,识别结果包括1和0,分别对应医学领域实体和非医学领域实体,W是参数,sigmoid是激活函数。
3.根据权利要求1所述的医疗领域知识图谱构建方法,其特征在于,所述对抽取的数据进行知识加工的步骤包括:
对抽取到的实体数据的属性和属性值进行规范化;
对抽取到的实体数据进行多值属性处理。
4.根据权利要求3所述的医疗领域知识图谱构建方法,其特征在于,所述对抽取到的实体数据的属性和属性值进行规范化的方法包括:
利用文本相似度计算的方法对抽取到的实体数据的属性和属性值进行规范化;或者,
利用人工众包的方法对抽取到的实体数据的属性和属性值进行规范化。
5.根据权利要求1所述的医疗领域知识图谱构建方法,其特征在于,所述对知识加工后的知识数据进行质量评估的步骤包括:
利用数据来源的数据对知识加工后的知识数据进行交叉检验;
将交叉检验不通过的知识数据通过众包算法分配给人工进行评估。
6.根据权利要求1所述的医疗领域知识图谱构建方法,其特征在于,在所述将通过质量评估的数据构建成医疗领域知识图谱的步骤之后还包括,对知识图谱进行更新,其中更新方法为:
利用基于统计学泊松分布公式预测知识图谱中实体的更新频率,其中Estimation(e)是实体的更新频率,T(e)表示实体的存在时间周期,X(e)表示实体e在时间周期T(e)内变化的次数;
根据所述更新频率对知识图谱中的实体数据进行智能更新。
7.根据权利要求6所述的医疗领域知识图谱构建方法,其特征在于,所述根据所述更新频率次对知识图谱中的实体数据进行智能更新的步骤包括:
根据所述更新频率确定实体的更新周期;
基于当前时间以及所述实体的更新周期,确定所述实体所对应的属性值的下次更新时间;
根据所述属性值的下次更新时间,更新知识图谱中实体对应的属性值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010592333.3/1.html,转载请声明来源钻瓜专利网。





