[发明专利]在线客服场景下的文本内容敏感词过滤替换的方法及系统有效
申请号: | 202110763152.7 | 申请日: | 2021-07-06 |
公开(公告)号: | CN113407658B | 公开(公告)日: | 2021-12-21 |
发明(设计)人: | 陈光 | 申请(专利权)人: | 北京容联七陌科技有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33;G06F16/335;G06F40/279;G06N20/00 |
代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 赵银萍 |
地址: | 100000 北京市朝阳区广顺北大*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 在线 客服 场景 文本 内容 敏感 过滤 替换 方法 系统 | ||
本发明提供一种在线客服场景下的文本内容敏感词过滤替换的方法及系统,其中,方法包括:步骤S1:创建数据桶;步骤S2:获取预设的多个敏感词库,基于敏感词库对数据桶进行配置;步骤S3:获取需要进行敏感词过滤替换的文本;步骤S4:基于配置完成的数据桶对文本进行敏感词过滤替换,获得目标文本,输出目标文本。本发明的在线客服场景下的文本内容敏感词过滤替换的方法及系统,基于敏感词库对数据桶进行配置,当数据桶配置完成后,基于数据桶对需要进行敏感词过滤替换的文本进行敏感词过滤替换,最后输出过滤替换后的目标文本,使用简单且使用成本较低。
技术领域
本发明涉及客服机器人技术领域,特别涉及一种在线客服场景下的文本内容敏感词过滤替换的方法及系统。
背景技术
目前,在线客服机器人在接待访客时,在其与访客进行纯文本交流的过程中,需要对访客输入的文本进行敏感词过滤替换,以维护正常的网络秩序,目前进行敏感词过滤替换大多使用机器学习的方法发现敏感词进行过滤替换,但是,其使用成本较高。
发明内容
本发明目的之一在于提供了一种在线客服场景下的文本内容敏感词过滤替换的方法及系统,基于敏感词库对数据桶进行配置,当数据桶配置完成后,基于数据桶对需要进行敏感词过滤替换的文本进行敏感词过滤替换,最后输出过滤替换后的目标文本,使用简单且使用成本较低。
本发明实施例提供的一种在线客服场景下的文本内容敏感词过滤替换的方法,包括:
步骤S1:创建数据桶;
步骤S2:获取预设的多个敏感词库,基于敏感词库对数据桶进行配置;
步骤S3:获取需要进行敏感词过滤替换的文本;
步骤S4:基于配置完成的数据桶对文本进行敏感词过滤替换,获得目标文本,输出目标文本。
优选的,步骤S2中,基于敏感词库对数据桶进行配置,包括:
获取敏感词库的特征信息,特征信息包括:匹配长度和触发概率;
查询预设的节点对照表,确定数据桶中对应于触发概率的节点;
基于红黑树将触发概率对应的敏感词库存储于节点上。
优选的,步骤S4:基于配置完成的数据桶对文本进行敏感词过滤替换,包括:
对文本进行分词处理,获得多个第一目标词;
将第一目标词在数据桶中进行索引;
将当前进行索引的对应节点作为目标节点,将目标节点上匹配长度小于等于第一目标词的文本长度的敏感词库作为目标敏感词库;
将第一目标词与目标敏感词库中的第二目标词进行匹配;
当全部第一目标词在全部节点上均完成索引后,将文本中匹配符合次数大于等于预设次数阈值的第一目标词替换成预设的替换文本,获得目标文本。
优选的,步骤S4中,输出目标文本之前,还包括:
对目标文本进行预处理;
其中,对目标文本进行预处理,包括:
将文本中需要替换成替换文本的任一第一目标词作为第三目标词;
提取第三目标词的第一特征;
建立触发特征数据库,将第一特征与触发特征数据库中的第二特征进行匹配,若匹配符合,获取匹配符合的第二特征的特征类型;
查询预设的查询方向对照表,确定特征类型对应的至少一个查询方向;
确定第三目标词在文本中的第一位置;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京容联七陌科技有限公司,未经北京容联七陌科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110763152.7/2.html,转载请声明来源钻瓜专利网。