[发明专利]一种基于自然语言处理的风控识别方法在审
申请号: | 201811563253.4 | 申请日: | 2018-12-20 |
公开(公告)号: | CN109636221A | 公开(公告)日: | 2019-04-16 |
发明(设计)人: | 陈绪龙;张超 | 申请(专利权)人: | 安徽经邦软件技术有限公司 |
主分类号: | G06Q10/06 | 分类号: | G06Q10/06;G06F16/35;G06F17/22;G06F17/27 |
代理公司: | 上海精晟知识产权代理有限公司 31253 | 代理人: | 冯子玲 |
地址: | 230000 安徽省合肥市包河工业区花园*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自然语言处理 相似度 风控 预处理 向量空间模型 文本相似度 风险数据 词向量 归类 判定 文本 | ||
本发明公开了一种基于自然语言处理的风控识别方法,其特征在于,包括以下步骤:1)对输入的风险数据进行预处理;2)将风险文本以向量空间模型表示出来,得到分布式词向量;3)计算风险相似度,当得到的风险文本相似度接近的时候,则归为一条风险,否则不归类,通过使用步骤1、2、3解决了Word2Vec可以计算setence之间的相似度,从而实现风险的判定。
技术领域:
本发明涉及风险管控系统识别技术领域,具体涉及一种基于自然语言处理的风控识别方法。
背景技术:
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。
风险控制是指风险管理者采取各种措施和方法,消灭或减少风险事件发生的各种可能性,或风险控制者减少风险事件发生时造成的损失。
在风险管控系统识别的过程中,我们需要对不同人员输入的不同风险进行相似度判定,以确定2条风险事项是否相似,如果相似则归为一条风险,因此需要对我们采用了自然语言处理的文本相似算法来实现。
Word2Vec的基本思想是把自然语言中的每一个词,表示成一个统一意义统一维度的短向量,只能计算词之间的相似度,不能计算setence之间的相似度。传统算法通常使用one-hot形式表示一个词,维度爆炸,词表通常会非常大,导致词向量维度也会非常大。损失语义信息,one hot随机给每个词语进行编号映射,无法表示词语之间的关系。传统sentence embedding做法:Bag-of-words,即将sentence中每个vector的one-hot vector进行求平均,这样会忽略了文本的语序。
发明内容:
现有技术难以满足人们的需要,为了解决上述存在的问题,本发明提出了一种基于自然语言处理的风控识别方法。
为实现上述目的,本发明提供如下技术方案:一种基于自然语言处理的风控识别方法,其特征在于,包括以下步骤:
1)对输入的风险数据进行预处理;
2)将风险文本以向量空间模型表示出来,得到分布式词向量;
3)计算风险相似度,当得到的风险文本相似度接近的时候,则归为一条风险,否则不归类。
优选的,所述步骤1中风险数据进行预处理包括以下步骤:
(1)对句子文本中所有词的word vector求平均,获得sentence embedding;
(2)加入了bag-of-ngrams,将sentence中每个vector的one-hot vector进行求平均;
(3)对句子中的word的vector进行加权求和,来表示句子;如上(1)中求平均时每个单词都为one-hot,会导致文本缺失语义性,因此对句子中的word的vector进行加权求和,来表示句子。
(4)对n-gram同样求embedding之后对n-gram也进行加权。
优选的,所述步骤2中将风险文本以向量空间模型表示出来,得到分布式词向量包括以下步骤:
(1)以每个词的tf-idf为权重,对所有词的word vector加权平均,获得sentenceembedding;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽经邦软件技术有限公司,未经安徽经邦软件技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811563253.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于云服务的智能电网软计算系统
- 下一篇:一种具备身份的外卖碗系统
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理