[发明专利]一种基于Apriori的病症数据关联方法在审
申请号: | 201810227807.7 | 申请日: | 2018-03-20 |
公开(公告)号: | CN108550401A | 公开(公告)日: | 2018-09-18 |
发明(设计)人: | 宋耀莲;田榆杰;王慧东;徐文林;武双新 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G16H70/40 | 分类号: | G16H70/40;G16H20/13;G16H50/70;G06F17/30;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关联规则 频繁项集 病症数据 置信度 关联 关键词数据库 分词处理 数据挖掘 常规的 高效性 分词 排序 数据库 处方 文本 诊断 引入 医生 | ||
本发明涉及一种基于Apriori的病症数据关联方法,属于数据挖掘推荐技术领域。本发明先建立一个病症关键词的数据库;然后通过已建立的病症关键词数据库,用常规的分词程序对药品的适用症状文本进行分词处理,并提取出适用症状的关键词。每个关键词作为一个候选1项集,引入Apriori算法计算出不同项数的频繁项集;其次,由各频繁项集产生相应的强关联规则,并计算出各强关联规则的置信度大小;最后,通过各强关联规则的置信度大小,将这些频繁项集进行推荐排序。本发明与现有技术相比,主要提供了Apriori算法对病症的诊断编辑起到关联推荐作用,提高医生开处方时对症状编辑的准确性与高效性。
技术领域
本发明涉及一种基于Apriori的病症数据关联方法,属于数据挖掘推荐技术领域。
背景技术
当前,现代医疗技术已取得巨大进步。然而,各种病症的关联与名称复杂度也为医生的病症诊断、编辑结果造成了一定干扰和影响。
Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。而且算法已经被广泛的应用到商业、网络安全等各个领域,但还没有应用到医学领域。
发明内容
本发明要解决的技术问题是一种基于Apriori的病症数据关联方法,将Apriori算法应用到病症诊断中作为优化编辑作用,提高医生开处方时对症状编辑的准确性与高效性。
本发明的技术方案是:一种基于Apriori的病症数据关联方法,包括如下步骤:
Step1、建立病症关键词数据库;
Step2、通过所建病症关键词数据库中的关键词对药品的适用症状文本进行分词处理,并提取出适用症状的病症关键词;
Step3、引入Apriori算法,所有药品的集合为D,每个病症关键词作为候选1项集c1,第i个候选1项集记为c1(i),其集合为C1,设置一个最小支持度阈值min_sup,当c1的支持度计数support_count(c1)大于等于min_sup时,则c1成为频繁1项集l1,所有l1的集合为L1,通过将L1与自身相连接产生候选2项集c2,所有c2的集合为C2,如果C2中第i个候选2项集c2(i)的某个子集为第x个候选1项集c1(x),且它不是L1的元素时,则将c2(i)从C2中删除;满足min_sup的c2作为频繁2项集l2,其集合为L2;依次循环类推,得到不同频繁项集l2、l3、……lk-1、lk的集合L2、L3……Lk-1、Lk,其中lk-1、lk分别代表频繁k-1项集和频繁k项集,Lk-1、Lk则为它们各自的集合;
Step4、设置一个最小置信度阈值min_conf;每个频繁项集l所产生的每个非空子集为s,若子集(l-s)与s的支持度计数之比大于等于最小置信度阈值min_conf,则输出强关联规则该强规则的置信度大小为l与s的支持度计数之比的值
Step5、将所计算出来的所有强关联规则按照其置信度confidence的大小进行排序,当输入一个病症时,通过关联规则得出与该病症相关联的其他病症。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810227807.7/2.html,转载请声明来源钻瓜专利网。