[发明专利]一种基于自然语言处理的短信内容风控系统及方法在审

专利信息
申请号: 201910009584.1 申请日: 2019-01-04
公开(公告)号: CN109831751A 公开(公告)日: 2019-05-31
发明(设计)人: 黄建辉 申请(专利权)人: 上海创蓝文化传播有限公司
主分类号: H04W4/14 分类号: H04W4/14;H04W12/12;H04L29/06;G06F17/27
代理公司: 暂无信息 代理人: 暂无信息
地址: 201601 上*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于自然语言处理的短信内容风控系统及方法,包括步骤一,数据提取;步骤二,语义分析;步骤三,模型审核;步骤四,人工审核;其中上述步骤一中,通过PySpark分布式计算技术对历史数据进行提取,并将提取的短信送入到语义模型中;其中上述步骤二中,通入语义模型后,通过Hanlp对数据进行分词和实体识别,去除人名、地名、停用词、时间、货币等非关键词汇,再通过K‑Means聚类算法对无标签数据进行标签化,然后将标签化的短信发送至审核敏感词模型,本发明,利用最新的NLP技术建模,通过语义模型进行敏感词判断,从而高效和准确的判断短信内容的风险系数,解决了现有技术中高延迟高耦合的问题。
搜索关键词: 短信内容 语义模型 自然语言处理 风控系统 标签化 敏感词 分布式计算技术 标签数据 短信发送 风险系数 关键词汇 技术建模 聚类算法 历史数据 人工审核 实体识别 数据提取 语义分析 审核 停用词 耦合的 短信 分词 去除 延迟 送入 货币
【主权项】:
1.一种基于自然语言处理的短信内容风控系统及方法,包括步骤一,数据提取;步骤二,语义分析;步骤三,模型审核;步骤四,人工审核;其特征在于;其中上述步骤一中,通过PySpark分布式计算技术对历史数据进行提取,并将提取的短信送入到语义模型中;其中上述步骤二中,通入语义模型后,通过Hanlp对数据进行分词和实体识别,去除人名、地名、停用词、时间、货币等非关键词汇,再通过K‑Means聚类算法对无标签数据进行标签化,然后将标签化的短信发送至审核敏感词模型;其中上述步骤三中,审核敏感词模型接收到短信后,将短信内容与计算机中的敏感词库进行对比,若短信内容中未出现与计算机敏感词库相同的内容,该短信直接发送待发送库进行发送,若短信内容中出现与计算机敏感词库相同的内容,该短信将被发送至审核库进行人工审核;其中上述步骤四中,人工将审核库中的短信提取出来,并进行人工审核,若审核库中的短信包含敏感词汇,人工将手动把敏感词汇输入到待学习词库中,若审核库中的短信不包含敏感词汇,将直接发送至待发送库进行发送。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海创蓝文化传播有限公司,未经上海创蓝文化传播有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910009584.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top