[发明专利]一种基于BERT模型的在线对话日志违规检测方法及系统有效
申请号: | 202010987851.5 | 申请日: | 2020-09-18 |
公开(公告)号: | CN112199480B | 公开(公告)日: | 2022-12-06 |
发明(设计)人: | 李威;肖龙源;廖斌 | 申请(专利权)人: | 厦门快商通科技股份有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/35;G06K9/62;G06Q40/02 |
代理公司: | 厦门仕诚联合知识产权代理事务所(普通合伙) 35227 | 代理人: | 吴圳添 |
地址: | 361009 福建省厦门市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 bert 模型 在线 对话 日志 违规 检测 方法 系统 | ||
本发明提出一种基于BERT模型的在线对话日志违规检测方法及系统,所述方法包括如下步骤:确定违规关键词,构造违规词库;利用所述违规关键词,抽取对话日志中涉及所述违规关键词的语句,构造违规句库;确定待对比在线对话日志,基于BERT模型结合预设的相似度算法检测在线对话日志的违规语句;所述系统包括:违规词库生成模块,违规句库生成模块和违规语句检测模块。本发明通过自动构造违规词库、违规句库,同时利用BERT模型与相似度算法相结合的方法,能够精确的针对目前市场上的在线客服平台无法及时通过客服日志分析找出平台中存在的疑似违规客户的问题,进行及时、针对性处理,保障网络安全,助力网络健康发展。
技术领域
本发明属于人工智能技术领域,特别涉及一种基于BERT模型的在线对话日志违规检测方法及系统。
背景技术
随着互联网的发展,越来越多的人使用互联网与机构、商家、医院等进行沟通交流,在线客服平台应运而生。在线客服平台作为商家与顾客直接沟通的桥梁,也易被不法分子利用,在在线客服平台上进行诈骗、博彩、刷单等违法违规的经营活动。作为在线客服平台的提供商,需要及时通过客服日志分析,找出平台中存在的疑似违规的客户,进行封号、举报。
但是现在市场上的在线客服平台每天需要接入海量的对话,仅仅依靠人工进行违规检测时,工作量是巨大的,几乎没有可能完成。而仅仅根据关键词进行违规检测时,又很难真正区分正常用户和违规用户。比如:出现“借贷”关键词的,有可能是正常借贷,也有可能是违规借贷。在此种情况下仅仅依靠关键词是无法做出正确的判断的,后期还需要大量人工筛查。而根据一些关键句进行检测的话,无法穷举所有的句子,使得需要不断维护一个较为庞大的句子库,目前还没有此种用于违规检测的句子库。
发明内容
针对目前市场上的在线客服平台无法及时通过客服日志分析,找出平台中存在的疑似违规的客户,进行及时、针对性处理的问题,本发明提出一种基于BERT模型的在线对话日志违规检测方法及系统,以解决该问题,助力保障网络安全。
一种基于BERT模型的在线对话日志违规检测方法,包括如下步骤:
确定违规关键词,构造违规词库;
利用所述违规关键词,抽取对话日志中涉及所述违规关键词的语句,构造违规句库;
确定待对比在线对话日志,基于BERT模型结合预设的相似度算法检测在线对话日志的违规语句。
更进一步地,所述构造违规词库包括:
确定违规的词汇为违规关键词,从对话日志中抽取涉及所述关键词的用户ID;
提取所述用户ID的对话日志数据,利用TF-IDF关键词抽取方法抽取疑似违规用户的疑似违规关键词;
人工对所述疑似违规用户的疑似违规关键词进行筛查,得到精准违规关键词,若干所述精准违规关键词构成违规词库。
更进一步地,所述构造违规句库包括:
抽取对话日志中涉及所述违规关键词的语句;
利用K-MEANS聚类算法对所述语句进行聚类;
从聚类结果中抽取违规句,对所述违规句进行去重,生成违规句库。
更进一步地,所述利用K-MEANS聚类算法对所述语句进行聚类得到40个类。
更进一步地,所述预设的相似度算法为余弦相似度算法。
更进一步地,所述基于BERT结合相似度算法检测在线对话日志的违规语句包括:
基于BERT预训练在线对话日志,生成所述对话日志的向量表示结果,得到预训练后的BERT;
利用所述预训练后的BERT将所述违规句库的语句转换成向量表示结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门快商通科技股份有限公司,未经厦门快商通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010987851.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:厨余垃圾降解装置
- 下一篇:一种提高轻薄化铜箔抗拉强度的制造方法