[发明专利]一种语句分类方法及相关设备有效
| 申请号: | 201910494631.6 | 申请日: | 2019-06-06 |
| 公开(公告)号: | CN110222182B | 公开(公告)日: | 2022-12-27 |
| 发明(设计)人: | 王翔宇;段建波 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;A63F13/70 |
| 代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;熊永强 |
| 地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 语句 分类 方法 相关 设备 | ||
本发明实施例公开了一种语句分类方法及相关设备,包括:首先获取待判别的目标语句的语句长度;当语句长度小于预设阈值时,对目标语句进行分词处理得到N个分词词语,N为大于1的整数;接着按照预设的语言模型将N个分词词语进行组合,得到M个组合词语;然后根据N个分词词语和M个组合词语,确定目标语句的分类信息。采用本发明实施例,可以有效对抗敏感词变形对分词准确性和敏感词命中率造成的影响,从而提高辱骂语句判定的效率和准确性。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种语句分类方法及相关设备。
背景技术
多人在线战术竞技游戏(Multiplayer Online Battle Arena,MOBA)是当前最受游戏爱好者追捧的游戏类型之一,如王者荣耀、英雄联盟等等。然而MOBA 游戏自出现以来其恶劣的游戏环境一直为人诟病,其中,言语辱骂是恶劣环境的重要因素之一。为了净化游戏环境,引导游戏环境正向发展,需要一个除了对局双方之外的第三方来对局内玩家提出的言语辱骂举报给出公平的审判结果。目前,现有技术中包括依赖敏感词库的自动审判方法和依赖人工客服的人工审判方法。然而,一方面,依赖敏感词库的自动审判方法无法对抗敏感词变形、谐音等情况,导致敏感词命中的准确性低;另一方面,每天有大量涉及言语辱骂的举报,这将导致人工客服工作量繁重,并且人为判定结果易受主观意识影响、以及辱骂词语形态丰富,有中文,有缩写,有拼音,有谐音,有中英结合,人工判定容易漏判、错判。
发明内容
本发明提供一种语句分类方法及相关设备,可以辱骂语句判定的效率和准确性。
第一方面,本发明实施例提供了一种语句分类方法,包括:
获取待判别的目标语句的语句长度;
当所述语句长度小于第一预设阈值时,对所述目标语句进行分词处理得到N 个分词词语,所述N为大于1的整数;
按照预设的语言模型将所述N个分词词语进行组合,得到M个组合词语,所述M为不小于1的整数;
根据所述N个分词词语和所述M个组合词语,确定所述目标语句的分类信息。
其中,所述按照预设的语言模型将所述N个分词词语进行组合,得到M个组合词语包括:
根据所述语言模型,确定所述N个分词词语中语义联系的多个词语;
将所述语义联系的多个词语组合成所述组合词语。
其中,所述按照预设的语言模型将所述N个分词词语进行组合,得到M个组合词语包括:
根据所述语言模型,确定所述N个分词词语中在所述目标语句内位置连续的多个词语;
将所述位置连续的多个词语组合成所述组合词语。
其中,所述根据所述N个分词词语和所述M个组合词语,确定所述目标语句的分类信息包括:
根据所述N个分词词语和所述M个组合词语,生成所述目标语句对应的词语集合;
确定所述词语集合中每个词语的词语类型;
根据所述词语类型,确定所述分类信息。
其中,所述确定所述词语集合中每个词语的词语类型包括:
将所述每个词语与预设的K个词库中的词语进行匹配,确定所述每个词语所属的词库,其中,所述K个词库是按照预设的K种词语类型建立的,所述K 为不小于1的整数;
按照所述每个词语所属的词库对所述每个词语进行分类,得到所述词语类型。
其中,所述K种词语类型包括第一词语类型、第二词语类型和第三词语类型;所述分类信息包括语句类型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910494631.6/2.html,转载请声明来源钻瓜专利网。





