[发明专利]一种实体挖掘方法及装置在审

申请号：	202310324837.0	申请日：	2023-03-29
公开（公告）号：	CN116206768A	公开（公告）日：	2023-06-02
发明（设计）人：	尚亚飞;胡可云;陈联忠	申请（专利权）人：	北京嘉和海森健康科技有限公司
主分类号：	G16H50/70	分类号：	G16H50/70;G06F40/279
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	柳虹
地址：	100085 北京市海淀区上***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种实体挖掘方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种实体挖掘方法及装置，包括：获取非结构化实体数据集合；对所述非结构化实体数据集合进行处理，获得第一候选实体数据集合、第二候选实体数据集合和第三候选实体数据集合；基于实体挖掘规则对第一候选实体数据集合、第二候选实体数据集合和第三候选实体数据集合进行挖掘，获得实体挖掘结果。如此，在本申请中，对于未存在词典中的医疗实体，采用实体挖掘规则对非结构化实体数据集合进行挖掘，可以获得实体挖掘结果。由此，基于实体挖掘规则可以最终挖掘出实体挖掘结果，避免了人工挖掘实体，从而也提高了实体挖掘的准确率。

技术领域

本申请涉及医疗技术领域，特别是涉及一种实体挖掘方法及装置。

背景技术

在对医疗临床数据进行数据整理的过程中，会存在多个非结构化的临床数据，由于非结构化的临床数据中存在多个实体，且其均不存在于医疗领域词典中，如此，就需要对该临床数据中的实体进行挖掘。

目前，通过人工方式对非结构化的临床数据进行实体挖掘，将挖掘出的实体通过医疗网站、书籍、指南、参考文件等多种途径对进行实体核对，然后由专业人员审核，扩充到医疗领域词典中，其方法对于不断产生的临床数据来说，实体挖掘的准确率较低，识别还不够全面，人工资源还耗费大。

因此，如何提高实体挖掘的准确率是本领域技术人员关注的重点问题。

发明内容

基于上述问题，本申请提供了一种实体挖掘方法及装置，以提高实体挖掘的准确率。本申请实施例公开了如下技术方案：

第一方面，本申请公开了一种实体挖掘方法，包括：

获取非结构化实体数据集合；

对所述非结构化实体数据集合进行处理，获得第一候选实体数据集合、第二候选实体数据集合和第三候选实体数据集合；

基于实体挖掘规则对第一候选实体数据集合、第二候选实体数据集合和第三候选实体数据集合进行挖掘，获得实体挖掘结果。