[发明专利]一种基于CharacterBert-CRF模型的诈骗词库构建方法在审
| 申请号: | 202211590760.3 | 申请日: | 2022-12-12 |
| 公开(公告)号: | CN115952788A | 公开(公告)日: | 2023-04-11 |
| 发明(设计)人: | 方兰婷;杜仕浩;杨玉涟;寇泽 | 申请(专利权)人: | 东南大学 |
| 主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/289;G06F16/35;G06F16/31 |
| 代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 张天哲 |
| 地址: | 210096 *** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明涉及一种基于CharacterBert‑CRF模型的诈骗词库构建方法,包括:将诈骗文本和源码数据进行预处理,通过分词模型进行分词;通过RAKE算法、TF‑IDF统计模型和TextRank算法提取种子词集;搭建CharacterBert网络结构和CRF网络结构,整合CharacterBert网络结构和CRF网络结构;使用训练集训练CharacterBert‑CRF模型,并用测试集对CharacterBert‑CRF模型进行评估,当评估超过预设阈值时,固定模型结构;并使用训练好的CharacterBert‑CRF模型对源码数据进行再次提取完善词集;利用Word2Vec词向量聚类扩展词集。使用本发明提供的方法可以构建一个完善的诈骗词库,对于识别诈骗网站有重要意义。 | ||
| 搜索关键词: | 一种 基于 characterbert crf 模型 诈骗 词库 构建 方法 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202211590760.3/,转载请声明来源钻瓜专利网。
- 上一篇:一种冠醚调控非心有机胺盐材料及其制备方法
- 下一篇:一种开关测量装置





