[发明专利]一种基于语义分析的测试数据处理方法及装置在审
| 申请号: | 202310316190.7 | 申请日: | 2023-03-28 |
| 公开(公告)号: | CN116383050A | 公开(公告)日: | 2023-07-04 |
| 发明(设计)人: | 亚欣荣;史胜清;陈雪;杨志颖 | 申请(专利权)人: | 中信银行股份有限公司 |
| 主分类号: | G06F11/36 | 分类号: | G06F11/36;G06F40/289;G06F40/30 |
| 代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 贾磊;刘飞 |
| 地址: | 100020 北京市朝阳区光*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 语义 分析 测试 数据处理 方法 装置 | ||
1.一种基于语义分析的测试数据处理方法,其特征在于,所述方法包括:
对用户输入的测试场景描述文本进行语义分词,并对分词结果进行分类处理,得到每个词元的类别,所述类别包括数据体类、约束条件类、数据标识类;
利用属于所述数据体类的词元对测试场景基础数据进行初筛,得到初始数据;
根据所述约束条件类的词元确定约束范围,并从所述初始数据的多个字段中确定约束条件字段,确定所述约束条件字段的值符合所述约束范围的初始数据,得到目标数据;
根据所述数据标识类的词元确定数据处理方式,并从所述目标数据的多个字段中确定数据处理字段,按照所述数据处理方式对所述数据处理字段的值进行处理,得到处理结果;
将所述处理结果提供给所述用户。
2.根据权利要求1所述的方法,其特征在于,对用户输入的测试场景描述文本进行语义分词,并对分词结果进行分类处理,得到每个分词的类别进一步包括:
对所述测试场景描述文本进行分词处理,得到多个词元;
将所述词元进行向量化处理,得到每个分词的词向量;
对所述词向量进行降维处理;
利用预先训练好的KNN模型对降维后的词向量进行计算,得到所述词元的类别。
3.根据权利要求2所述的方法,其特征在于,将所述词元进行向量化处理之前,所述方法还包括:
根据预设的停用词列表过滤所述词元中的停用词,以便于对过滤所述停用词后的词元进行向量化处理。
4.根据权利要求1所述的方法,其特征在于,利用属于所述数据体类的词元对测试场景基础数据进行初筛进一步包括:
根据属于所述数据体类的词元分别计算每一所述测试场景基础数据作为所述初始数据的第一概率;
选择所述第一概率超过第一预设门限值的测试场景基础数据作为所述初始数据。
5.根据权利要求4所述的方法,其特征在于,根据属于所述数据体类的分别计算每一所述测试场景基础数据作为所述初始数据的第一概率的公式为:
Pmj=similarity(wi,Mj)+αj+βj;
其中,Pmj表示所述第一概率,similarity()表示相似度度量算法,wi表示所述数据体类中的第i个词元,Mj表示第j个所述测试场景基础数据的名称,αj表示在指定时段内系统使用所述测试场景基础数据Mj的频度系数,βj表示所述用户自创建以来使用所述测试场景基础数据Mj的频度系数。
6.根据权利要求1所述的方法,其特征在于,从所述初始数据的多个字段中确定约束条件字段进一步包括:
根据所述初始数据的字段被做为约束条件字段的历史次数计算所述初始数据的字段作为所述约束条件字段的第二概率;
选择所述第二概率最大的所述字段作为所述约束条件字段。
7.根据权利要求6所述的方法,其特征在于,根据所述初始数据的字段被做为约束条件字段的历史次数计算所述初始数据作为所述约束条件字段的第二概率的公式为:
Pfi=Num系统使用(fi字段做为约束条件字段)+Num该用户使用(fi字段做为约束条件字段)×γ;
其中,fi表示所述初始数据中的第i个字段,Pfi表示字段fi作为所述约束条件字段的第二概率,Num系统使用(fi字段做为约束条件字段)表示系统中所存储的使用字段fi做为约束条件字段的总次数,Num该用户使用(fi字段做为约束条件字段)表示所述用户使用字段fi作为约束条件字段的总次数,γ表示系数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中信银行股份有限公司,未经中信银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310316190.7/1.html,转载请声明来源钻瓜专利网。





