[发明专利]风险文本识别方法、装置、计算机设备及存储介质有效
| 申请号: | 202010833826.1 | 申请日: | 2020-08-18 |
| 公开(公告)号: | CN112686036B | 公开(公告)日: | 2022-04-01 |
| 发明(设计)人: | 刘静 | 申请(专利权)人: | 平安国际智慧城市科技股份有限公司 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/151;G06F16/335;G06F16/31 |
| 代理公司: | 深圳市赛恩倍吉知识产权代理有限公司 44334 | 代理人: | 杨毅玲;孙芬 |
| 地址: | 518000 广东省深圳市前海深港合*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 风险 文本 识别 方法 装置 计算机 设备 存储 介质 | ||
1.一种风险文本识别方法,其特征在于,所述方法包括:
获取用户的待审核文本;
根据敏感词词库对所述待审核文本进行敏感词识别,判断所述待审核文本中是否包含敏感词;
若所述待审核文本中不包含敏感词,则将所述待审核文本输入训练好的神经网络模型,得到所述待审核文本是风险文本的概率;
判断所述待审核文本是风险文本的概率是否大于或等于预设概率阈值;
若所述待审核文本是风险文本的概率大于或等于预设概率阈值,获取所述用户的历史行为数据;
根据所述历史行为数据判断所述用户是否行为异常;
若所述待审核文本中包含敏感词或者所述用户行为异常,则确定所述待审核文本为风险文本;
所述获取用户的待审核文本包括:
获取所述待审核文本的索引表、差异数据表和参照文件,所述索引表中的每个索引值对应所述待审核文本的一个片段,若该片段存在于所述参照文件中,则所述索引值为该片段在所述参照文件中的偏移量,若该片段不存在于所述参照文件中,则所述索引值为预设值;
根据所述索引表从所述参照文件中获取所述待审核文本中存在于所述参照文件的重复数据;
从所述差异数据表中获取所述待审核文本中不存在于所述参照文件的差异数据;
将所述重复数据和所述差异数据组成所述待审核文本。
2.如权利要求1所述的风险文本识别方法,其特征在于,所述根据敏感词词库对所述待审核文本进行敏感词识别包括:
对所述待审核文本进行分词,得到所述待审核文本的各个词语;
根据所述敏感词词库对所述各个词语进行敏感词匹配。
3.如权利要求1所述的风险文本识别方法,其特征在于,所述对所述待审核文本进行分词包括:
利用结巴分词对所述待审核文本进行分词;或者
利用特定字符对所述待审核文本进行分词;或者
利用词典库对所述待审核文本进行分词。
4.如权利要求1所述的风险文本识别方法,其特征在于,所述将所述待审核文本输入训练好的神经网络模型包括:
将所述待审核文本转换为拼音序列;
将所述拼音序列输入训练好的神经网络模型。
5.如权利要求1所述的风险文本识别方法,其特征在于,所述将所述待审核文本转换为拼音序列包括:
根据汉字的ASCII码将所述待审核文本转换为拼音序列;或
根据汉字的Unicode值将所述待审核文本转换为拼音序列。
6.如权利要求1所述的风险文本识别方法,其特征在于,所述根据汉字的Unicode值将所述待审核文本转换为拼音序列包括:
建立拼音-编号对照表,对所有拼音进行编号并将所有拼音对应的编号添加到所述拼音-编号对照表中;
建立Unicode值-拼音编号对照表,将汉字对应拼音的编号按照汉字的Unicode值添加到所述Unicode值-拼音编号对照表中;
逐一读取所述待审核文本中的待转换汉字,确定所述待转换汉字的Unicode值,根据所述待转换汉字的Unicode值从所述Unicode值-拼音编号对照表中获取所述待转换汉字对应的拼音的编号,根据所述待转换汉字对应的拼音的编号从所述拼音-编号对照表获得所述待转换汉字对应的拼音,从而将所述待审核文本中的每个汉字转换为拼音。
7.如权利要求1所述的风险文本识别方法,其特征在于,所述获取用户的待审核文本包括:
同步已通过区块链系统共识的区块;
解析所述区块以获取所述待审核文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安国际智慧城市科技股份有限公司,未经平安国际智慧城市科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010833826.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:超声波流量计
- 下一篇:用于使用荧光成像来确定损伤灶深度的系统和方法





