[发明专利]一种基于Simhash-BERT网络的医用耗材合理使用分析方法有效

申请号：	202210079547.X	申请日：	2022-01-24
公开（公告）号：	CN114416966B	公开（公告）日：	2022-08-26
发明（设计）人：	宋尚玲;刘泽	申请（专利权）人：	山东大学第二医院
主分类号：	G06F16/335	分类号：	G06F16/335;G06F16/35;G06F40/186;G06F40/194;G06F40/242;G06F40/279;G06F40/30;G16H50/70
代理公司：	济南龙瑞知识产权代理有限公司 37272	代理人：	李颖
地址：	250000 山东***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 simhash bert 网络医用耗材合理使用分析方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于Simhash-BERT网络的医用耗材合理使用分析方法，其特征在于，步骤如下：

步骤S1：利用数据分析平台的搜索功能，确定检索用的文字、语句，设置调用接口,从数据库中调用包含待检索与匹配的文字、语句的目标文档；

步骤S2：将文字、语句处理成字符串；

步骤S3：确定搜索的字符串和单词词典，所述单词词典用于将不同文档中的每个语句都划分为不同的字符串保存备用；构建搜索网络模型BERT，然后对由多个变压器堆叠而成的BERT网络进行优化，并采用token嵌入、分割嵌入和位置嵌入，使得BERT网络的嵌入层实现字符的传递；

步骤S4：在每个字符串开始位置添加分类标签token，将BERT网络的变压器输出作为分类过程的融合序列，采用BERT网络的学习位置嵌入，将融合序列的长度保持为256个token；BERT网络运行过程中产生的句子对记为语句A和语句B，语句A的每个token中嵌入学习语句X1，语句B的每个token中嵌入学习语句X2；

步骤S5：对BERT网络进行深度双向表示训练，采用随机屏蔽输入token，对屏蔽的token进行预测；随机屏蔽语句A或语句B中10%的组成部分，进行非监督学习的训练；为了保持变压器中每个语句的token分布式特征和增加信息量，在屏蔽部分，其中90%采用固定的模板进行屏蔽，5%采用随机的模板进行屏蔽，剩余5%保持不变；

步骤S6：重复步骤S 5直至满足BERT网络的训练目标，所述训练目标为：在训练句子对中随机选择，满足X2的语义是X1下一句的部分，占总比例的1/4；对剩余的3/4进行随机挑选，针对不同的情形，继续学习X1和X2之间的相关性，提高训练模型的自适应性；

步骤S7：利用24层多类型注意机制，将步骤S6中的输出结果传递给BERT网络默认的回归函数，来推导最终的表征，定义BERT网络语义相似度基准的性能；

步骤S8：在步骤S7运行完成的BERT网络输出中添加由词语分割网络优化的权重P，并对添加权重P之后BERT网络输出的字符串进行相关池化操作，分别采取最大池化、最小池化以及平均池化，保证输出的字符串向量长度相等；

步骤S9：采用Simhash相似度计算对池化操作后的字符串进行筛选，设计词语分割网络进行权重P的优化，所述词语分割网络采用三联体网络对目标文档中的文本进行难例挖掘策略，所述难例挖掘策略通过构建从最小训练批次中选择积极或者消极的负例对来实现；

将所述负例代入BERT网络进行训练，利用训练结果对权重P进行进一步优化；

步骤S10：将训练后的字符串进行分词，产生整个目标文档的特征词，去掉噪音词，形成词序列，为每个词序列添加权重；

步骤S11：文本信息转化为数字信息，将待检测的字符串通过hash算法生成对应的hash值：0和1；

步骤S12：将hash值添加词序列的权重，形成加权数字串，根据语句中每个词所起到的不同作用将生成的hash值作为评价，采用熵权法计算新权重，进而将得到的hash值进行最大最小标准化处理，公式如下：

=，

其中表示第i个字符串的第j个指标标准化后的值，表示对第i个字符串进行最大标准化，表示对第i个字符串进行最小标准化；

信息熵的求解为将代入下列公式：

=-，