[发明专利]一种基于Simhash-BERT网络的医用耗材合理使用分析方法有效
| 申请号: | 202210079547.X | 申请日: | 2022-01-24 |
| 公开(公告)号: | CN114416966B | 公开(公告)日: | 2022-08-26 |
| 发明(设计)人: | 宋尚玲;刘泽 | 申请(专利权)人: | 山东大学第二医院 |
| 主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/35;G06F40/186;G06F40/194;G06F40/242;G06F40/279;G06F40/30;G16H50/70 |
| 代理公司: | 济南龙瑞知识产权代理有限公司 37272 | 代理人: | 李颖 |
| 地址: | 250000 山东*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 simhash bert 网络 医用 耗材 合理 使用 分析 方法 | ||
1.一种基于Simhash-BERT网络的医用耗材合理使用分析方法,其特征在于,步骤如下:
步骤S1:利用数据分析平台的搜索功能,确定检索用的文字、语句,设置调用接口,从数据库中调用包含待检索与匹配的文字、语句的目标文档;
步骤S2:将文字、语句处理成字符串;
步骤S3:确定搜索的字符串和单词词典,所述单词词典用于将不同文档中的每个语句都划分为不同的字符串保存备用;构建搜索网络模型BERT,然后对由多个变压器堆叠而成的BERT网络进行优化,并采用token嵌入、分割嵌入和位置嵌入,使得BERT网络的嵌入层实现字符的传递;
步骤S4:在每个字符串开始位置添加分类标签token,将BERT网络的变压器输出作为分类过程的融合序列,采用BERT网络的学习位置嵌入,将融合序列的长度保持为256个token;BERT网络运行过程中产生的句子对记为语句A和语句B,语句A的每个token中嵌入学习语句X1,语句B的每个token中嵌入学习语句X2;
步骤S5:对BERT网络进行深度双向表示训练,采用随机屏蔽输入token,对屏蔽的token进行预测;随机屏蔽语句A或语句B中10%的组成部分,进行非监督学习的训练;为了保持变压器中每个语句的token分布式特征和增加信息量,在屏蔽部分,其中90%采用固定的模板进行屏蔽,5%采用随机的模板进行屏蔽,剩余5%保持不变;
步骤S6:重复步骤S 5直至满足BERT网络的训练目标,所述训练目标为:在训练句子对中随机选择,满足X2的语义是X1下一句的部分,占总比例的1/4;对剩余的3/4进行随机挑选,针对不同的情形,继续学习X1和X2之间的相关性,提高训练模型的自适应性;
步骤S7:利用24层多类型注意机制,将步骤S6中的输出结果传递给BERT网络默认的回归函数,来推导最终的表征,定义BERT网络语义相似度基准的性能;
步骤S8:在步骤S7运行完成的BERT网络输出中添加由词语分割网络优化的权重P,并对添加权重P之后BERT网络输出的字符串进行相关池化操作,分别采取最大池化、最小池化以及平均池化,保证输出的字符串向量长度相等;
步骤S9:采用Simhash相似度计算对池化操作后的字符串进行筛选,设计词语分割网络进行权重P的优化,所述词语分割网络采用三联体网络对目标文档中的文本进行难例挖掘策略,所述难例挖掘策略通过构建从最小训练批次中选择积极或者消极的负例对来实现;
将所述负例代入BERT网络进行训练,利用训练结果对权重P进行进一步优化;
步骤S10:将训练后的字符串进行分词,产生整个目标文档的特征词,去掉噪音词,形成词序列,为每个词序列添加权重;
步骤S11:文本信息转化为数字信息,将待检测的字符串通过hash算法生成对应的hash值:0和1;
步骤S12:将hash值添加词序列的权重,形成加权数字串,根据语句中每个词所起到的不同作用将生成的hash值作为评价,采用熵权法计算新权重,进而将得到的hash值进行最大最小标准化处理,公式如下:
其中表示第i个字符串的第j个指标标准化后的值,表示对第i个字符串进行最大标准化,表示对第i个字符串进行最小标准化;
信息熵的求解为将代入下列公式:
=-,
=,
其中,L代表第j个指标下第i个字符串的指标值的比重,代表第i个字符串的第j个指标;
将所有指标、、的信息熵以此求出,各字符串的权重值为:
=,i=1、2、3、、n;
hash值通过加权计算的序列值h为:
,
表示hash值的第i个的值,0或者1;
将同一语句中每个词通过获得的加权数字串对应的序列值进行叠加,得到一个总的序列值;
步骤S13:把得到的总序列值进行降维,大于0的值替换为1,小于0的值替换为0,得到最终输出结果;
步骤S14:将不同语句的输出结果进行比较,比较对应位置的0和1是否相等,将不相等的个数计为距离值,距离值越小,相似性越高;
步骤S15:通过相似性计算,根据单词字典,遍历文档中所有语句,找到与检索语句Simhash距离值最小的语句,得到最终的输出结果;
步骤S16:目标文档中锁定语句关系,同一行文本属于同一簇,同一列文本属于同一类,并进行余弦相似度检测,找出已进行目标语句和前后语句的相似度对比,判定前后语句是否属于同一簇或者同一类的字符串输出;
步骤S17:设定输出的字符串大小,使其大于待检测的字符串大小,当目标语句锁定时,通过调节字符串的长度,获取目标字符串所在位置前后相关的文本;
步骤S18:通过外部接口调用,将搜寻到的文本信息进行输出与展示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学第二医院,未经山东大学第二医院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210079547.X/1.html,转载请声明来源钻瓜专利网。





