[发明专利]一种文本数据处理方法、装置、设备以及存储介质有效
| 申请号: | 202010239303.4 | 申请日: | 2020-03-30 |
| 公开(公告)号: | CN111444326B | 公开(公告)日: | 2023-10-20 |
| 发明(设计)人: | 缪畅宇 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/284;G06F40/30;G06F16/35 |
| 代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强;杜维 |
| 地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文本 数据处理 方法 装置 设备 以及 存储 介质 | ||
1.一种文本数据处理方法,其特征在于,包括:
获取初始样本数据,通过关键词数据库中的领域关键词确定所述初始样本数据中的第一关键词,获取与所述第一关键词具有关联关系的第二关键词对应的候选文本数据;
确定所述初始样本数据与所述候选文本数据之间的关联度,在所述候选文本数据中筛选关联度满足样本筛选条件的候选文本数据,将筛选出的候选文本数据作为所述初始样本数据对应的增强文本数据;
根据所述增强文本数据和所述初始样本数据,确定与所述关键词数据库中具有关联关系的训练样本对;所述训练样本对中的每个样本数据均携带所述关键词数据库中的领域关键词对应的关键词标识;
基于所述训练样本对训练用于捕获所述关键词标识的初始文本匹配模型,将训练后的初始文本匹配模型确定为目标文本匹配模型;所述目标文本匹配模型后续用于对获取到的预测样本对的匹配度进行预测。
2.根据权利要求1所述的方法,其特征在于,所述初始样本数据为样本标注区域中的文本数据,所述样本标注区域为与所述初始样本数据具有关联关系的文本数据库中的区域;
所述方法还包括:
在所述样本标注区域中将所述初始样本数据所属的领域确定为第一领域,从所述文本数据库中获取与所述第一领域的领域标签相匹配的关联文本;所述文本数据库中包含除所述第一领域之外的第二领域;
基于与所述文本数据库相关联的关键词筛选条件,在由所述关联文本的分词所构成的候选词中,筛选并确定与所述第一领域相匹配的领域关键词,基于与所述第一领域相匹配的领域关键词构建所述第一领域对应的第一领域词典;
获取所述第二领域对应的第二领域词典,基于所述第一领域词典和所述第二领域词典,确定与所述样本标注区域相关联的关键词数据库。
3.基于权利要求2所述的方法,其特征在于,所述基于与所述文本数据库相关联的关键词筛选条件,在由所述关联文本的分词所构成的候选词中,筛选并确定与所述第一领域相匹配的领域关键词,基于与所述第一领域相匹配的领域关键词构建所述第一领域对应的第一领域词典,包括:
对所述关联文本进行分词处理,得到与所述关联文本的分词相关联的分词集合,将所述分词集合中的每个分词进行组合,得到与所述关联文本相关联的候选词,确定所述候选词中的每个分词之间的互相关度;
获取与所述文本数据库相关联的关键词筛选条件中的互相关阈值,从所述候选词中筛选互相关度大于所述互相关阈值的候选词,将筛选出的候选词作为待处理字符串;
确定所述待处理字符串在所述第一领域中的影响度,从所述待处理字符串中筛选影响度达到所述关键词筛选条件的待处理字符串,将筛选出的待处理字符串作为与所述第一领域相匹配的领域关键词;所述影响度是由所述待处理字符串出现在所述第一领域的频次和所述待处理字符串出现在所述第二领域的频次所共同确定的;
基于与所述第一领域相匹配的领域关键词构建所述第一领域对应的第一领域词典。
4.根据权利要求2所述的方法,其特征在于,所述获取初始样本数据,通过关键词数据库中的领域关键词确定所述初始样本数据中的第一关键词,获取与所述第一关键词具有关联关系的第二关键词对应的候选文本数据,包括:
从所述样本标注区域中获取初始样本数据,从关键词数据库中获取所述第一领域词典,基于所述第一领域词典对所述初始样本数据中的领域关键词进行识别;
将在所述初始样本数据中所识别到的领域关键词作为第一关键词;
从所述关键词数据库所包含的关联文本中获取包含所述第一关键词的目标关联文本,将所述目标关联文本中的领域关键词作为第二关键词;
将包含所述第二关键词的目标关联文本作为与所述第一关键词具有关联关系的第二关键词对应的候选文本数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010239303.4/1.html,转载请声明来源钻瓜专利网。





