[发明专利]在线客服场景下的文本内容敏感词过滤替换的方法及系统有效
申请号: | 202110763152.7 | 申请日: | 2021-07-06 |
公开(公告)号: | CN113407658B | 公开(公告)日: | 2021-12-21 |
发明(设计)人: | 陈光 | 申请(专利权)人: | 北京容联七陌科技有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33;G06F16/335;G06F40/279;G06N20/00 |
代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 赵银萍 |
地址: | 100000 北京市朝阳区广顺北大*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 在线 客服 场景 文本 内容 敏感 过滤 替换 方法 系统 | ||
1.一种在线客服场景下的文本内容敏感词过滤替换的方法,应用于在线客服机器人,其特征在于,包括:
步骤S1:创建数据桶;
步骤S2:获取预设的多个敏感词库,基于所述敏感词库对所述数据桶进行配置;
步骤S3:获取需要进行敏感词过滤替换的文本;
步骤S4:基于配置完成的所述数据桶对所述文本进行敏感词过滤替换,获得目标文本,输出所述目标文本;
所述步骤S2中,基于所述敏感词库对所述数据桶进行配置,包括:
获取所述敏感词库的特征信息,所述特征信息包括:匹配长度和触发概率;
查询预设的节点对照表,确定数据桶中对应于所述触发概率的节点;
基于红黑树将所述触发概率对应的所述敏感词库存储于所述节点上;
所述步骤S4:基于配置完成的所述数据桶对所述文本进行敏感词过滤替换,包括:
对所述文本进行分词处理,获得多个第一目标词;
将所述第一目标词在所述数据桶中进行索引;
将当前进行索引的对应所述节点作为目标节点,将所述目标节点上所述匹配长度小于等于所述第一目标词的文本长度的所述敏感词库作为目标敏感词库;
将所述第一目标词与所述目标敏感词库中的第二目标词进行匹配;
当全部所述第一目标词在全部所述节点上均完成索引后,将所述文本中匹配符合次数大于等于预设次数阈值的所述第一目标词替换成预设的替换文本,获得目标文本。
2.如权利要求1所述的一种在线客服场景下的文本内容敏感词过滤替换的方法,其特征在于,所述步骤S4中,输出所述目标文本之前,还包括:
对所述目标文本进行预处理;
其中,对所述目标文本进行预处理,包括:
将所述文本中需要替换成所述替换文本的任一所述第一目标词作为第三目标词;
提取所述第三目标词的第一特征;
建立触发特征数据库,将所述第一特征与所述触发特征数据库中的第二特征进行匹配,若匹配符合,获取匹配符合的所述第二特征的特征类型;
查询预设的查询方向对照表,确定所述特征类型对应的至少一个查询方向;
确定所述第三目标词在所述文本中的第一位置;
获取所述文本中在所述第一位置的所述查询方向上预设第一数量的第四目标词;
提取所述第四目标词的第三特征;
获取预设的近似敏感特征数据库,将所述第三特征与所述近似敏感特征数据库中的第四特征进行匹配,若匹配符合,确定所述第四目标词在所述文本中的第二位置;
获取所述文本中在所述第二位置前和/或后预设第二数量的第五目标词;
提取所述第五目标词的第五特征;
获取预设的否定特征数据库,将所述第五特征与所述否定特征数据库中的第六特征进行匹配,若匹配不符合,将与所述第四特征匹配符合的所述第三特征对应的所述第四目标词替换成所述替换文本;
当所述目标文本中需要替换成所述替换文本的所述第四目标词全部替换完成后,完成预处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京容联七陌科技有限公司,未经北京容联七陌科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110763152.7/1.html,转载请声明来源钻瓜专利网。