[发明专利]一种基于自然语言处理的短信内容风控系统及方法在审
申请号: | 201910009584.1 | 申请日: | 2019-01-04 |
公开(公告)号: | CN109831751A | 公开(公告)日: | 2019-05-31 |
发明(设计)人: | 黄建辉 | 申请(专利权)人: | 上海创蓝文化传播有限公司 |
主分类号: | H04W4/14 | 分类号: | H04W4/14;H04W12/12;H04L29/06;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 201601 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 短信内容 语义模型 自然语言处理 风控系统 标签化 敏感词 分布式计算技术 标签数据 短信发送 风险系数 关键词汇 技术建模 聚类算法 历史数据 人工审核 实体识别 数据提取 语义分析 审核 停用词 耦合的 短信 分词 去除 延迟 送入 货币 | ||
1.一种基于自然语言处理的短信内容风控系统及方法,包括步骤一,数据提取;步骤二,语义分析;步骤三,模型审核;步骤四,人工审核;其特征在于;
其中上述步骤一中,通过PySpark分布式计算技术对历史数据进行提取,并将提取的短信送入到语义模型中;
其中上述步骤二中,通入语义模型后,通过Hanlp对数据进行分词和实体识别,去除人名、地名、停用词、时间、货币等非关键词汇,再通过K-Means聚类算法对无标签数据进行标签化,然后将标签化的短信发送至审核敏感词模型;
其中上述步骤三中,审核敏感词模型接收到短信后,将短信内容与计算机中的敏感词库进行对比,若短信内容中未出现与计算机敏感词库相同的内容,该短信直接发送待发送库进行发送,若短信内容中出现与计算机敏感词库相同的内容,该短信将被发送至审核库进行人工审核;
其中上述步骤四中,人工将审核库中的短信提取出来,并进行人工审核,若审核库中的短信包含敏感词汇,人工将手动把敏感词汇输入到待学习词库中,若审核库中的短信不包含敏感词汇,将直接发送至待发送库进行发送。
2.根据权利要求1所述的一种基于自然语言处理的短信内容风控系统及方法,其特征在于:所述步骤二中,语义模型是通过NLP技术建设。
3.根据权利要求1所述的一种基于自然语言处理的短信内容风控系统及方法,其特征在于:所述步骤三中,在对比过程中,既要查看短线是否含有敏感词汇,还要计算短信中的敏感字是否超过敏感词库中设定的阀值。
4.根据权利要求1所述的一种基于自然语言处理的短信内容风控系统及方法,其特征在于:所述步骤四中,计算机将对含有敏感词汇短信的主叫号码进行标记。
5.根据权利要求1所述的一种基于自然语言处理的短信内容风控系统及方法,其特征在于:所述步骤四中,计算机将待学习词库中的敏感词汇保存至语义模型中,纠正模型参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海创蓝文化传播有限公司,未经上海创蓝文化传播有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910009584.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种银联密使系统及其处理方法
- 下一篇:一种通信流量控制方法和系统