[发明专利]一种基于自然语言处理的短信内容风控系统及方法在审
申请号: | 201910009584.1 | 申请日: | 2019-01-04 |
公开(公告)号: | CN109831751A | 公开(公告)日: | 2019-05-31 |
发明(设计)人: | 黄建辉 | 申请(专利权)人: | 上海创蓝文化传播有限公司 |
主分类号: | H04W4/14 | 分类号: | H04W4/14;H04W12/12;H04L29/06;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 201601 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于自然语言处理的短信内容风控系统及方法,包括步骤一,数据提取;步骤二,语义分析;步骤三,模型审核;步骤四,人工审核;其中上述步骤一中,通过PySpark分布式计算技术对历史数据进行提取,并将提取的短信送入到语义模型中;其中上述步骤二中,通入语义模型后,通过Hanlp对数据进行分词和实体识别,去除人名、地名、停用词、时间、货币等非关键词汇,再通过K‑Means聚类算法对无标签数据进行标签化,然后将标签化的短信发送至审核敏感词模型,本发明,利用最新的NLP技术建模,通过语义模型进行敏感词判断,从而高效和准确的判断短信内容的风险系数,解决了现有技术中高延迟高耦合的问题。 | ||
搜索关键词: | 短信内容 语义模型 自然语言处理 风控系统 标签化 敏感词 分布式计算技术 标签数据 短信发送 风险系数 关键词汇 技术建模 聚类算法 历史数据 人工审核 实体识别 数据提取 语义分析 审核 停用词 耦合的 短信 分词 去除 延迟 送入 货币 | ||
【主权项】:
1.一种基于自然语言处理的短信内容风控系统及方法,包括步骤一,数据提取;步骤二,语义分析;步骤三,模型审核;步骤四,人工审核;其特征在于;其中上述步骤一中,通过PySpark分布式计算技术对历史数据进行提取,并将提取的短信送入到语义模型中;其中上述步骤二中,通入语义模型后,通过Hanlp对数据进行分词和实体识别,去除人名、地名、停用词、时间、货币等非关键词汇,再通过K‑Means聚类算法对无标签数据进行标签化,然后将标签化的短信发送至审核敏感词模型;其中上述步骤三中,审核敏感词模型接收到短信后,将短信内容与计算机中的敏感词库进行对比,若短信内容中未出现与计算机敏感词库相同的内容,该短信直接发送待发送库进行发送,若短信内容中出现与计算机敏感词库相同的内容,该短信将被发送至审核库进行人工审核;其中上述步骤四中,人工将审核库中的短信提取出来,并进行人工审核,若审核库中的短信包含敏感词汇,人工将手动把敏感词汇输入到待学习词库中,若审核库中的短信不包含敏感词汇,将直接发送至待发送库进行发送。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海创蓝文化传播有限公司,未经上海创蓝文化传播有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910009584.1/,转载请声明来源钻瓜专利网。
- 上一篇:一种银联密使系统及其处理方法
- 下一篇:一种通信流量控制方法和系统