[发明专利]一种语句分类方法及相关设备有效
| 申请号: | 201910494631.6 | 申请日: | 2019-06-06 |
| 公开(公告)号: | CN110222182B | 公开(公告)日: | 2022-12-27 |
| 发明(设计)人: | 王翔宇;段建波 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;A63F13/70 |
| 代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;熊永强 |
| 地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 语句 分类 方法 相关 设备 | ||
1.一种语句分类方法,其特征在于,所述方法包括:
获取待判别的目标语句的语句长度;
当所述语句长度小于第一预设阈值时,对所述目标语句进行分词处理得到N个分词词语,所述N为大于1的整数;
按照预设的语言模型将所述N个分词词语进行组合,得到M个组合词语,所述M为不小于1的整数;
根据所述N个分词词语和所述M个组合词语,生成所述目标语句对应的词语集合;
确定所述词语集合中每个词语的词语类型,词语类型包括第一词语类型、第二词语类型和第三词语类型;
当所述词语集合包含所述第一词语类型的词语、或所述词语集合包含所述第二词语类型的词语和所述第三词语类型的词语时,确定所述目标语句的语句类型为第一语句类型;
其中,所述第一词语类型为辱骂型,所述第二词语类型为带有辱骂性质的口头禅型,所述第三词语类型为实体型,所述第一语句类型为辱骂型。
2.如权利要求1所述的方法,其特征在于,所述按照预设的语言模型将所述N个分词词语进行组合,得到M个组合词语包括:
根据所述语言模型,确定所述N个分词词语中语义联系的多个词语;
将所述语义联系的多个词语组合成所述组合词语。
3.如权利要求1所述的方法,其特征在于,所述按照预设的语言模型将所述N个分词词语进行组合,得到M个组合词语包括:
根据所述语言模型,确定所述N个分词词语中在所述目标语句内位置连续的多个词语;
将所述位置连续的多个词语组合成所述组合词语。
4.如权利要求1所述的方法,其特征在于,所述确定所述词语集合中每个词语的词语类型包括:
将所述每个词语与预设的K个词库中的词语进行匹配,确定所述每个词语所属的词库,其中,所述K个词库是按照预设的K种词语类型建立的,所述K为不小于1的整数;
按照所述每个词语所属的词库对所述每个词语进行分类,得到所述词语类型。
5.如权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
当所述语句长度不小于所述第一预设阈值、或根据所述N个分词词语和所述M个组合词语无法确定所述目标语句的分类信息时,获取预设语料库中的多条语料,所述多条语料中的每条语料对应一个类型标签;
确定所述每条语料的文本特征,所述文本特征包括字词特征和拼音特征中的至少一项;
将所述类型标签和所述文本特征输入待训练模型进行训练,得到文本分类模型;
根据所述文本分类模型,确定所述分类信息。
6.如权利要求5所述的方法,其特征在于,所述目标语句包括多个用户对话过程中目标用户产生的多条对话语句;所述分类信息包括分类概率和语句类型;所述语句类型包括第一语句类型、第二语句类型和第三语句类型中的至少一种;
所述确定所述分类信息之后,还包括:
确定所述多条对话语句中属于每种语句类型、且所述分类概率大于预设阈值的对话语句的累积数量;
根据所述累积数量,确定所述目标用户是否存在违规对话行为。
7.如权利要求6所述的方法,其特征在于,所述根据所述累积数量,确定所述目标用户是否存在辱骂行为包括:
当所述多条对话语句中属于所述第一语句类型、且所述分类概率大于第二预设阈值的对话语句的累积数量大于第三预设阈值时,确定所述目标用户存在所述违规对话行为;或
当所述多条对话语句中属于所述第二语句类型、且所述分类概率大于第四预设阈值的对话语句的累积数量大于第五预设阈值时,确定所述目标用户存在所述违规对话行为;或
当所述多条对话语句中属于所述第三语句类型、且所述分类概率大于第六预设阈值的对话语句的累积数量大于第七预设阈值时,确定所述目标用户不存所述违规对话行为;
其中,所述第一语句类型为辱骂型,所述第二语句类型为口头禅型,所述第三语句类型为非辱骂类型。
8.一种语句分类装置,其特征在于,所述装置包括:
获取模块,用于获取待判别的目标语句的语句长度;
分词模块,用于当所述语句长度小于第一预设阈值时,对所述目标语句进行分词处理得到N个分词词语,所述N为大于1的整数;
所述分词模块,还用于按照预设的语言模型将所述N个分词词语进行组合,得到M个组合词语,所述M为不小于1的整数;
分类模块,用于根据所述N个分词词语和所述M个组合词语,生成所述目标语句对应的词语集合;以及用于确定所述词语集合中每个词语的词语类型,词语类型包括第一词语类型、第二词语类型和第三词语类型;以及用于当所述词语集合包含所述第一词语类型的词语、或所述词语集合包含所述第二词语类型的词语和所述第三词语类型的词语时,确定所述目标语句的语句类型为第一语句类型;
其中,所述第一词语类型为辱骂型,所述第二词语类型为带有辱骂性质的口头禅型,所述第三词语类型为实体型,所述第一语句类型为辱骂型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910494631.6/1.html,转载请声明来源钻瓜专利网。





