[发明专利]消息数据处理方法、装置、计算机设备和存储介质有效
申请号: | 201810124547.0 | 申请日: | 2018-02-07 |
公开(公告)号: | CN108287823B | 公开(公告)日: | 2021-06-29 |
发明(设计)人: | 张澍滋 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/335 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 易皎鹤 |
地址: | 518052 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 消息 数据处理 方法 装置 计算机 设备 存储 介质 | ||
本申请涉及一种消息数据处理方法、装置、计算机设备和存储介质。所述方法包括:在主线程中接收服务器发送的消息数据,消息数据上携带有来源数据。将消息数据按照分词逻辑进行拆分得到目标分词数据。将目标分词数据与目标分词数据对应的来源数据进行关联存储,目标分词数据对应的来源数据与目标分词数据对应消息数据上携带的来源数据相同。在识别线程中查询目标分词数据中是否存在风险等级大于预设等级的目标分词数据。获取查询到的风险等级大于预设等级的目标分词数据对应的来源数据,并对所获取到的来源数据添加风险标签。采用本方法能够无需人工进行监控分析,即可在不同线程中处理大量的消息数据,提高处理效率,提高准确率。
技术领域
本申请涉及计算机技术领域,特别是涉及一种消息数据处理方法、装置、计算机设备和存储介质。
背景技术
随着互联网科技的发展,在生活中,用户可以从网络上获取到越来越多的信息,而一些高危信息是由群聊等的方式进行传播的,例如对某网站举行的活动,一些不法分子会以群聊等的方式进行交流,从而以低额的付出获取高额的活动奖励等,因此,对群聊的消息监控是非常重要的。
传统地,需要人工实时监控聊天软件中的群聊等消息,进而人工分析接收到的群聊消息中是否存在有风险等级大于预设等级的聊天消息,当有大量群聊消息时,则人工分析效率低且可能不准确。
发明内容
基于此,有必要针对上述技术问题,提供一种能够分析效率高且准确的消息数据处理方法、装置、计算机设备和存储介质。
一种消息数据处理方法,所述方法包括:
在主线程中接收服务器发送的消息数据,所述消息数据上携带有来源数据;
将所述消息数据按照分词逻辑进行拆分得到目标分词数据;
将所述目标分词数据与所述目标分词数据对应的来源数据进行关联存储,所述目标分词数据对应的来源数据与所述目标分词数据对应消息数据上携带的来源数据相同;
在识别线程中查询所述目标分词数据中是否存在风险等级大于预设等级的目标分词数据;
获取查询到的所述风险等级大于预设等级的目标分词数据对应的来源数据,并对所获取到的所述来源数据添加风险标签。
在其中一个实施例中,所述将所述消息数据按照预设分词逻辑进行拆分得到目标分词数据的步骤,包括:
获取预设的多个分词逻辑,根据所述预设的多个分词逻辑对所述消息数据进行拆分得到分词序列;
计算每一个所述分词序列对应的拆分正确率;
获取与最大的所述拆分正确率对应的所述分词序列作为所述目标分词数据。
在其中一个实施例中,所述将所述消息数据按照分词逻辑进行拆分得到目标分词数据的步骤,还包括:
将所述消息数据按照分词逻辑进行拆分得到初始分词数据;
将所述初始分词数据与基础滤镜库中的过滤数据进行匹配;
当所述初始分词数据与所述过滤数据匹配成功时,则提取所述匹配成功的所述初始分词数据对应的所述来源数据中的时间数据;
当所述初始分词数据对应的来源数据中的时间数据相同时,则获取所述时间数据对应的消息数据;
接收针对所述消息数据的分词逻辑的添加指令,并根据所述添加指令添加新的分词逻辑;
采用所述新的分词逻辑将所述消息数据进行拆分得到目标分词数据。
在其中一个实施例中,所述在识别线程中从所述目标分词数据中查询风险等级大于预设等级的目标分词数据的步骤,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810124547.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种中文相似问题生成系统与方法
- 下一篇:语义相似度计算方法及装置