[发明专利]风险文本识别方法、装置、计算机设备及存储介质有效

申请号：	202010833826.1	申请日：	2020-08-18
公开（公告）号：	CN112686036B	公开（公告）日：	2022-04-01
发明（设计）人：	刘静	申请（专利权）人：	平安国际智慧城市科技股份有限公司
主分类号：	G06F40/289	分类号：	G06F40/289;G06F40/151;G06F16/335;G06F16/31
代理公司：	深圳市赛恩倍吉知识产权代理有限公司 44334	代理人：	杨毅玲;孙芬
地址：	518000 广东省深圳市前海深港合***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	风险文本识别方法装置计算机设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及人工智能，提供一种风险文本识别方法、装置、计算机设备及存储介质。所述风险文本识别方法包括：获取待审核文本；判断待审核文本中是否包含敏感词；若待审核文本中不包含敏感词，则将待审核文本输入训练好的神经网络模型，得到待审核文本是风险文本的概率；判断待审核文本是风险文本的概率是否大于或等于预设概率阈值；若待审核文本是风险文本的概率大于或等于预设概率阈值，获取用户的历史行为数据；根据用户的行为数据判断用户是否行为异常；若待审核文本中包含敏感词或者用户行为异常，则判断待审核文本为风险文本。本发明可以提高风险文本的识别率。此外，本申请还涉及区块链技术，可以从区块链获取所述待审核文本。

技术领域

本发明涉及人工智能领域，具体涉及一种风险文本识别方法、装置、计算机设备及存储介质。

背景技术

网络上有许多资讯、社交、视频或其他类型的平台，用户可以将自己原创或摘抄的内容通过这些平台进行展示或者提供给其他用户。由于每个用户可以发布内容，其中可能会有涉嫌违规的内容，例如涉嫌违规的文本或视频。为了避免不良信息传播，在展示或者提供给其他用户之前，需要对用户提交的内容进行审核，判断用户提交的内容是否涉嫌违规。目前对涉嫌违规的风险文本的识别效果不是很理想，容易出现漏杀，就是没有识别出违规的文本。

发明内容

鉴于以上内容，有必要提出一种风险文本识别方法、装置、计算机设备及存储介质，其可以提高风险文本的识别率。

本申请的第一方面提供一种风险文本识别方法，所述方法包括：

获取用户的待审核文本；

根据敏感词词库对所述待审核文本进行敏感词识别，判断所述待审核文本中是否包含敏感词；

若所述待审核文本中不包含敏感词，则将所述待审核文本输入训练好的神经网络模型，得到所述待审核文本是风险文本的概率；

判断所述待审核文本是风险文本的概率是否大于或等于预设概率阈值；

若所述待审核文本是风险文本的概率大于或等于预设概率阈值，获取所述用户的历史行为数据；

根据所述历史行为数据判断所述用户是否行为异常；

若所述待审核文本中包含敏感词或者所述用户行为异常，则确定所述待审核文本为风险文本；

所述获取用户的待审核文本包括：

获取所述待审核文本的索引表、差异数据表和参照文件，所述索引表中的每个索引值对应所述待审核文本的一个片段，若该片段存在于所述参照文件中，则所述索引值为该片段在所述参照文件中的偏移量，若该片段不存在于所述参照文件中，则所述索引值为预设值；