[发明专利]一种基于自然语言处理的短信内容风控系统及方法在审
申请号: | 201910009584.1 | 申请日: | 2019-01-04 |
公开(公告)号: | CN109831751A | 公开(公告)日: | 2019-05-31 |
发明(设计)人: | 黄建辉 | 申请(专利权)人: | 上海创蓝文化传播有限公司 |
主分类号: | H04W4/14 | 分类号: | H04W4/14;H04W12/12;H04L29/06;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 201601 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 短信内容 语义模型 自然语言处理 风控系统 标签化 敏感词 分布式计算技术 标签数据 短信发送 风险系数 关键词汇 技术建模 聚类算法 历史数据 人工审核 实体识别 数据提取 语义分析 审核 停用词 耦合的 短信 分词 去除 延迟 送入 货币 | ||
本发明公开了一种基于自然语言处理的短信内容风控系统及方法,包括步骤一,数据提取;步骤二,语义分析;步骤三,模型审核;步骤四,人工审核;其中上述步骤一中,通过PySpark分布式计算技术对历史数据进行提取,并将提取的短信送入到语义模型中;其中上述步骤二中,通入语义模型后,通过Hanlp对数据进行分词和实体识别,去除人名、地名、停用词、时间、货币等非关键词汇,再通过K‑Means聚类算法对无标签数据进行标签化,然后将标签化的短信发送至审核敏感词模型,本发明,利用最新的NLP技术建模,通过语义模型进行敏感词判断,从而高效和准确的判断短信内容的风险系数,解决了现有技术中高延迟高耦合的问题。
技术领域
本发明涉及短信内容监控领域,具体为一种基于自然语言处理的短信内容风控系统及方法。
背景技术
所谓敏感信息是指不当使用或未经授权被人接触或修改会不利于国家利益或联邦政府计划的实行或不利于个人依法享有的个人隐私权的所有信息。随着手机行业的日益发展,敏感短信的问题越发严重。反敏感短信的技术也在不断的进步。现有的技术是基于已有的敏感词库,通过正则表达式的技术进行短信内容匹配,若匹配到短信内容中有部分词汇在敏感词表中,则判定敏感短信,从而进行拦截。但是现有的技术存在高延迟和高耦合的缺点。高延迟是指在敏感词库增加到一定量的时候,正则匹配的速度会下降,对性能造成一定的影响,从而影响短信发送的时效性。而高耦合是指判断的逻辑在项目内部,不利于扩展和后期开放到其他行业。因此,设计一种高效、准确的基于自然语言处理的短信内容风控系统及方法是很有必要的。
发明内容
本发明的目的在于提供一种基于自然语言处理的短信内容风控系统及方法,以解决上述背景技术中提出的问题。
为了解决上述技术问题,本发明提供如下技术方案:包括步骤一,数据提取;步骤二,语义分析;步骤三,模型审核;步骤四,人工审核;
其中上述步骤一中,通过PySpark分布式计算技术对历史数据进行提取,并将提取的短信送入到语义模型中;
其中上述步骤二中,通入语义模型后,通过Hanlp对数据进行分词和实体识别,去除人名、地名、停用词、时间、货币等非关键词汇,再通过K-Means聚类算法对无标签数据进行标签化,然后将标签化的短信发送至审核敏感词模型;
其中上述步骤三中,审核敏感词模型接收到短信后,将短信内容与计算机中的敏感词库进行对比,若短信内容中未出现与计算机敏感词库相同的内容,该短信直接发送待发送库进行发送,若短信内容中出现与计算机敏感词库相同的内容,该短信将被发送至审核库进行人工审核;
其中上述步骤四中,人工将审核库中的短信提取出来,并进行人工审核,若审核库中的短信包含敏感词汇,人工将手动把敏感词汇输入到待学习词库中,若审核库中的短信不包含敏感词汇,将直接发送至待发送库进行发送;
根据上述技术方案,所述步骤二中,语义模型是通过NLP技术建设。
根据上述技术方案,所述步骤三中,在对比过程中,既要查看短线是否含有敏感词汇,还要计算短信中的敏感字是否超过敏感词库中设定的阀值。
根据上述技术方案,其特征在于:所述步骤四中,计算机将对含有敏感词汇短信的主叫号码进行标记。
根据上述技术方案,所述步骤四中,计算机将待学习词库中的敏感词汇保存至语义模型中,纠正模型参数。
与现有技术相比,本发明所达到的有益效果是:本发明中的NLP风控系统,通过与现有系统结合,实现全过程风险控制,本发明中的语义模型,通过对传入的短信内容进行语义分析,若判定为敏感信息,则入人工审核库,否则发送,在人工审核后会出现两种结果,既含有敏感词和不含有敏感词,对于不含有敏感词的部分,就是语义模型判断错误的地方,将这些数据进行模型在学习,纠正模型参数,以达到更好的效果,从而高效和准确的判断短信内容的风险系数,解决了现有技术中高延迟高耦合的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海创蓝文化传播有限公司,未经上海创蓝文化传播有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910009584.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种银联密使系统及其处理方法
- 下一篇:一种通信流量控制方法和系统