[发明专利]数据处理方法及装置在审
申请号: | 202010807710.0 | 申请日: | 2020-08-12 |
公开(公告)号: | CN112035659A | 公开(公告)日: | 2020-12-04 |
发明(设计)人: | 张晗;李磊 | 申请(专利权)人: | 北京字节跳动网络技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/332;G06F40/279;G06F40/35;G10L15/06;G10L15/08;G10L15/18;G10L15/26 |
代理公司: | 北京竹辰知识产权代理事务所(普通合伙) 11706 | 代理人: | 聂鹏 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 | ||
1.一种数据处理方法,其特征在于,包括:
从与用户的对话中获取所述用户的语音数据;
将所述语音数据转换为文本数据;
将所述文本数据输入基于第一分类树的变更而得到的第二分类树,以确定所述用户在所述对话中的意图类别;其中,所述第一分类树和所述第二分类树均由多个类别节点组成,每个类别节点均包含一个用户意图分类模型,所述第二分类树的训练样本集合是通过第一分类树来获得的。
2.根据权利要求1所述的方法,其特征在于,从与用户的对话中获取用户的语音数据包括:
从所述用户与人工智能机器人的对话中获取所述用户反馈的语音数据。
3.根据权利要求1所述的方法,其特征在于,将所述语音数据转换为文本数据包括:
从所述语音数据中提取语音特征;
基于所述语音特征确定所述语音数据对应的文本数据。
4.根据权利要求1所述的方法,其特征在于,所述用户在所述对话中的意图类别包括以下至少一项:所述对话对所述用户造成骚扰、所述用户针对所述对话要进行投诉、所述对话的电话号码错误以及所述用户对所述对话感兴趣。
5.根据权利要求1所述的方法,其特征在于,所述第一分类树的变更包括以下至少一项:将所述第一分类树中的一个节点拆分为多个子节点;向所述第一分类树中的一个节点添加子节点;删除所述第一分类树中的一个节点。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述用户的意图类别,确定针对所述用户采取的措施。
7.根据权利要求1所述的方法,其特征在于,所述第二分类树的训练样本集合是通过如下方式获得的:
获取训练语料;
将所述训练语料输入所述第一分类树中,以基于每个类别节点的用户意图分类模型对所述训练语料的分类结果来标注每个训练语料的用户意图类别以得到标注的训练语料;
根据标注的训练语料确定所述训练样本集合。
8.一种数据处理装置,其特征在于,包括:
语音数据获取模块,用于从与用户的对话中获取所述用户的语音数据;
语音数据转换模块,用于将所述语音数据转换为文本数据;
意图类别确定模块,用于将所述文本数据输入基于第一分类树的变更而得到的第二分类树,以确定所述用户在所述对话中的意图类别;其中,所述第一分类树和所述第二分类树均由多个类别节点组成,每个类别节点均包含一个用户意图分类模型,所述第二分类树的训练样本集合是通过第一分类树来获得的。
9.一种电子设备,包括:
存储器,用于存储非暂时性计算机可读指令;以及
处理器,用于运行所述计算机可读指令,使得所述处理器执行时实现根据权利要求1-7任一项所述的数据处理方法。
10.一种计算机可读存储介质,用于存储非暂时性计算机可读指令,当所述非暂时性计算机可读指令由计算机执行时,使得所述计算机执行权利要求1-7任一项所述的数据处理方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司,未经北京字节跳动网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010807710.0/1.html,转载请声明来源钻瓜专利网。