[发明专利]一种文本数据处理方法、装置、设备以及存储介质有效
| 申请号: | 202010239303.4 | 申请日: | 2020-03-30 |
| 公开(公告)号: | CN111444326B | 公开(公告)日: | 2023-10-20 |
| 发明(设计)人: | 缪畅宇 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/284;G06F40/30;G06F16/35 |
| 代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强;杜维 |
| 地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文本 数据处理 方法 装置 设备 以及 存储 介质 | ||
本申请实施例公开一种文本数据处理方法、装置、设备以及存储介质,其中,方法包括:确定初始样本数据中的第一关键词,从关键词数据库中获取与第一关键词具有关联关系的第二关键词对应的候选文本数据;确定初始样本数据与候选文本数据之间的关联度,在候选文本数据中筛选关联度满足样本筛选条件的候选文本数据,将筛选出的候选文本数据作为增强文本数据;根据增强文本数据和所述初始样本数据,确定训练样本对;基于训练样本对训练用于捕获关键词标识的初始文本匹配模型,将训练后的初始文本匹配模型确定用于对预测样本对的匹配度进行预测的目标文本匹配模型。采用本申请,可以提高对关键词的识别能力,进而提升文本匹配的准确度。
技术领域
本申请涉及互联网技术领域,尤其涉及一种文本数据处理方法、装置、设备以及存储介质。
背景技术
随着人工智能(Artificial Intelligence,AI)的发展,自然语言处理技术(Natural Language Processing,NLP)被广泛应用在搜索、推荐、对话等领域。通常一对文本中的文本A指用户问题,文本B指待匹配的内容源,如问答库里的问题、网页的内容、产品的文本描述等等。
为便于理解,以现有的搜索领域中的文本处理系统为例,当在文本处理系统中对某个文本对中的两个文本数据(例如:文本A=周杰伦唱歌很好听、文本B=周华健唱歌很好听)进行文本匹配时,由于这两个文本数据具有较高的句式上的相似性,以至于该文本处理系统中的文本匹配模型在进行文本匹配时,会存在误认为这两个文本数据属于相似文本数据的现象,从而导致文本处理系统最终输出与用户所录入的文本A并不匹配的文本数据。由此可见,采用现有技术在进行文本匹配的过程中,势必会存在难以区分某些具有迷惑性(例如,语义上比较接近或者句式上比较接近)的文本数据的现象,进而会降低文本匹配的准确度。
发明内容
本申请实施例提供一种文本数据处理方法、装置及存储介质,可以提高对关键词的识别能力,进而可以提升文本匹配的准确度。
本申请实施例一方面提供了一种文本数据处理方法,方法包括:
获取初始样本数据,通过关键词数据库中的领域关键词确定初始样本数据中的第一关键词,获取与第一关键词具有关联关系的第二关键词对应的候选文本数据;
确定初始样本数据与候选文本数据之间的关联度,在候选文本数据中筛选关联度满足样本筛选条件的候选文本数据,将筛选出的候选文本数据作为初始样本数据对应的增强文本数据;
根据增强文本数据和初始样本数据,确定与关键词数据库中具有关联关系的训练样本对;训练样本对中的每个样本数据均携带关键词数据库中的领域关键词对应的关键词标识;
基于训练样本对训练用于捕获关键词标识的初始文本匹配模型,将训练后的初始文本匹配模型确定为目标文本匹配模型;目标文本匹配模型后续用于对获取到的预测样本对的匹配度进行预测。
本申请实施例一方面提供了一种文本数据处理装置,装置包括:
关键词识别模块,用于获取初始样本数据,通过关键词数据库中的领域关键词确定初始样本数据中的第一关键词,获取与第一关键词具有关联关系的第二关键词对应的候选文本数据;
关联度确定模块,用于确定初始样本数据与候选文本数据之间的关联度,在候选文本数据中筛选关联度满足样本筛选条件的候选文本数据,将筛选出的候选文本数据作为初始样本数据对应的增强文本数据;
训练对确定模块,用于根据增强文本数据和初始样本数据,确定与关键词数据库中具有关联关系的训练样本对;训练样本对中的每个样本数据均携带关键词数据库中的领域关键词对应的关键词标识;
目标模型确定模块,用于基于训练样本对训练用于捕获关键词标识的初始文本匹配模型,将训练后的初始文本匹配模型确定为目标文本匹配模型;目标文本匹配模型后续用于对获取到的预测样本对的匹配度进行预测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010239303.4/2.html,转载请声明来源钻瓜专利网。





