[发明专利]风险文本识别方法、装置、计算机设备及存储介质有效
| 申请号: | 202010833826.1 | 申请日: | 2020-08-18 |
| 公开(公告)号: | CN112686036B | 公开(公告)日: | 2022-04-01 |
| 发明(设计)人: | 刘静 | 申请(专利权)人: | 平安国际智慧城市科技股份有限公司 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/151;G06F16/335;G06F16/31 |
| 代理公司: | 深圳市赛恩倍吉知识产权代理有限公司 44334 | 代理人: | 杨毅玲;孙芬 |
| 地址: | 518000 广东省深圳市前海深港合*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 风险 文本 识别 方法 装置 计算机 设备 存储 介质 | ||
本申请涉及人工智能,提供一种风险文本识别方法、装置、计算机设备及存储介质。所述风险文本识别方法包括:获取待审核文本;判断待审核文本中是否包含敏感词;若待审核文本中不包含敏感词,则将待审核文本输入训练好的神经网络模型,得到待审核文本是风险文本的概率;判断待审核文本是风险文本的概率是否大于或等于预设概率阈值;若待审核文本是风险文本的概率大于或等于预设概率阈值,获取用户的历史行为数据;根据用户的行为数据判断用户是否行为异常;若待审核文本中包含敏感词或者用户行为异常,则判断待审核文本为风险文本。本发明可以提高风险文本的识别率。此外,本申请还涉及区块链技术,可以从区块链获取所述待审核文本。
技术领域
本发明涉及人工智能领域,具体涉及一种风险文本识别方法、装置、计算机设备及存储介质。
背景技术
网络上有许多资讯、社交、视频或其他类型的平台,用户可以将自己原创或摘抄的内容通过这些平台进行展示或者提供给其他用户。由于每个用户可以发布内容,其中可能会有涉嫌违规的内容,例如涉嫌违规的文本或视频。为了避免不良信息传播,在展示或者提供给其他用户之前,需要对用户提交的内容进行审核,判断用户提交的内容是否涉嫌违规。目前对涉嫌违规的风险文本的识别效果不是很理想,容易出现漏杀,就是没有识别出违规的文本。
发明内容
鉴于以上内容,有必要提出一种风险文本识别方法、装置、计算机设备及存储介质,其可以提高风险文本的识别率。
本申请的第一方面提供一种风险文本识别方法,所述方法包括:
获取用户的待审核文本;
根据敏感词词库对所述待审核文本进行敏感词识别,判断所述待审核文本中是否包含敏感词;
若所述待审核文本中不包含敏感词,则将所述待审核文本输入训练好的神经网络模型,得到所述待审核文本是风险文本的概率;
判断所述待审核文本是风险文本的概率是否大于或等于预设概率阈值;
若所述待审核文本是风险文本的概率大于或等于预设概率阈值,获取所述用户的历史行为数据;
根据所述历史行为数据判断所述用户是否行为异常;
若所述待审核文本中包含敏感词或者所述用户行为异常,则确定所述待审核文本为风险文本;
所述获取用户的待审核文本包括:
获取所述待审核文本的索引表、差异数据表和参照文件,所述索引表中的每个索引值对应所述待审核文本的一个片段,若该片段存在于所述参照文件中,则所述索引值为该片段在所述参照文件中的偏移量,若该片段不存在于所述参照文件中,则所述索引值为预设值;
根据所述索引表从所述参照文件中获取所述待审核文本中存在于所述参照文件的重复数据;
从所述差异数据表中获取所述待审核文本中不存在于所述参照文件的差异数据;
将所述重复数据和所述差异数据组成所述待审核文本。
另一种可能的实现方式中,所述根据敏感词词库对所述待审核文本进行敏感词识别包括:
对所述待审核文本进行分词,得到所述待审核文本的各个词语;
根据所述敏感词词库对所述各个词语进行敏感词匹配。
另一种可能的实现方式中,所述对所述待审核文本进行分词包括:
利用结巴分词对所述待审核文本进行分词;或者
利用特定字符对所述待审核文本进行分词;或者
利用词典库对所述待审核文本进行分词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安国际智慧城市科技股份有限公司,未经平安国际智慧城市科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010833826.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:超声波流量计
- 下一篇:用于使用荧光成像来确定损伤灶深度的系统和方法





