[发明专利]一种数据的处理方法、装置及设备在审
| 申请号: | 201910094108.4 | 申请日: | 2019-01-30 |
| 公开(公告)号: | CN110008466A | 公开(公告)日: | 2019-07-12 |
| 发明(设计)人: | 袁锦程;许辽萨;易灿;崔世文 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27;G06Q20/40 |
| 代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 许振新;朱文杰 |
| 地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本数据 装置及设备 定性模型 分词 分析 定性 定性信息 分词处理 构建 | ||
本说明书实施例公开了一种数据的处理方法、装置及设备,所述方法包括:获取待分析的文本数据;对所述文本数据进行分词处理,得到所述文本数据对应的多个分词;将所述文本数据对应的多个分词输入到预定的审理定性模型中进行审理分析,得到用于对所述文本数据进行定性的分析依据信息,其中,所述审理定性模型是基于包含有定性关键词的文本数据构建的模型;根据所述分析依据信息,确定所述文本数据对应的定性信息。
技术领域
本说明书涉及计算机技术领域,尤其涉及一种数据的处理方法、装置及设备。
背景技术
网络技术和终端技术给用户的工作和生活带来便利,但同时也存在潜在的风险,而随着网络服务的不断壮大,网络交易的数量也越来越大,其中就会包含欺诈、赌博交易等风险。
通常可以通过关键词匹配的方式对用户之间的交易进行定性,即可以获取用户之间交互的数据(如用户之间发送的文本数据等),或者,用户主动上传的相关数据,然后,可以对获取的数据进行分词,得到的分词结果可以分别与预先设定的定性关键词进行匹配。通过匹配的定性关键词,可以为相应的交易进行定性,例如,获取的数据为“骗我钱去赌博”,如果预先设定的定性关键词中包括赌博,则与获取的数据相匹配的定性关键词为赌博,此时可以判定相应的交易为赌博。
然而,在审理定性的场景下,通过上述方式得到的定性信息并不准确,基于上述示例,通过上述方式确定的定性信息为赌博,而实际上,“骗我钱去赌博”的定性信息应该是欺诈,从而使得定性分析的结果的准确率低下。此外,当前用于审理定性的定性关键词数量较多(已超过300个),这样在进行定性分析过程中,会使得定性关键词的匹配过程需要较多时间,从而降低了定性分析的效率,因此,需要提供一种定性分析的效率更高、结果的准确率更高的数据处理方案。
发明内容
本说明书实施例的目的是提供一种数据的处理方法、装置及设备,以提供一种定性分析的效率更高、结果的准确率更高的数据处理方案。
为了实现上述技术方案,本说明书实施例是这样实现的:
本说明书实施例提供的一种数据的处理方法,所述方法包括:
获取待分析的文本数据;
对所述文本数据进行分词处理,得到所述文本数据对应的多个分词;
将所述文本数据对应的多个分词输入到预定的审理定性模型中进行审理分析,得到用于对所述文本数据进行定性的分析依据信息,其中,所述审理定性模型是基于包含有定性关键词的文本数据构建的模型;
根据所述分析依据信息,确定所述文本数据对应的定性信息。
可选地,所述方法还包括:
获取包含有定性关键词的样本数据;
根据所述包含有定性关键词的样本数据和预定的机器学习算法,构建审理定性模型,其中,所述审理定性模型中包括嵌入层、GRU层和Attention层,所述Attention层用于确定所述样本数据中包含的所述定性关键词。
可选地,所述根据所述包含有定性关键词的样本数据和预定的机器学习算法,构建审理定性模型,包括:
根据所述包含有定性关键词的样本数据和预定的机器学习算法,构建初始审理定性模型;
将所述初始审理定性模型和预定的目标模型进行集成,得到所述审理定性模型,其中,所述目标模型是基于包含有预定关键词的文本数据构建的模型。
可选地,所述方法还包括:
确定所述审理定性模型能够覆盖的定性关键词;
通过所述审理定性模型能够覆盖的定性关键词重新训练所述审理定性模型,得到重新训练后的审理定性模型。
可选地,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910094108.4/2.html,转载请声明来源钻瓜专利网。





