[发明专利]一种加权的暗网资源危险评估分类方法及系统在审
| 申请号: | 202110042695.X | 申请日: | 2021-01-13 |
| 公开(公告)号: | CN112632974A | 公开(公告)日: | 2021-04-09 |
| 发明(设计)人: | 何泾沙;他永君;朱娜斐 | 申请(专利权)人: | 北京工业大学 |
| 主分类号: | G06F40/253 | 分类号: | G06F40/253;G06F16/951;G06F16/957;G06F40/284;G06F21/57 |
| 代理公司: | 北京汇信合知识产权代理有限公司 11335 | 代理人: | 林聪源 |
| 地址: | 100124 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 加权 资源 危险 评估 分类 方法 系统 | ||
本发明提供一种加权的暗网资源危险评估分类方法及系统,涉及互联网领域,包括:爬取暗网网址获取html文件;按照html文件中的标签提取网站内容;计算网站内容中每个词的TF‑IDF值;预设html文件中各标签的重要程度值;将每个词的TF‑IDF值与该词所属标签的重要程度值相乘作为网站的文本特征;根据网站的文本特征构建网站空间向量;将网站空间向量输入空间向量评估分类模型评估输出网站危险等级。本发明通过计算暗网中词汇的TF‑IDF值,精确获取暗网中的中心词汇,同时采用一种加权的手段,通过暗网html文件不同标签下的词汇重要程度不同,再次进行重要程度加权,准确获取暗网中重要的词汇进行评估和分类。
技术领域
本发明涉及互联网领域,尤其是涉及一种加权的暗网资源危险评估分类方法及系统。
背景技术
暗网是指不能通过静态链接获取其内容的web页面,这些页面是目前搜索引擎无法直接抓取的网页,且不能直接进行检索的网页,目前用户可以根据暗网域名,利用匿名网络即洋葱路由器(The Onion Router,Tor)进入暗网的页面。
暗网为用户提供了匿名化的服务,在保证用户隐私的同时也助长了犯罪的行为。暗网中包含了大量重要的隐藏数据信息,为了对暗网网站进行安全性检测和评估,现有的暗网资源评估方法是对暗网资源进行分类,然后对不同分类的暗网进行危险等级排列,进而确定某暗网的危险等级;
现有的暗网资源危险评估方法不能准确的体现暗网的危险等级,对于各暗网资源之间的危险等级没有明确的划分。
发明内容
针对上述问题,本发明提供了一种加权的暗网资源危险评估分类方法及系统,通过计算暗网中词汇的TF-IDF值,精确获取暗网中的中心词汇,同时采用一种加权的手段,通过暗网html文件不同标签下的词汇重要程度不同,再次进行重要程度加权,进而进行危险评估和等级划分。
为实现上述目的,本发明提供了一种加权的暗网资源危险评估分类方法,包括:
爬取暗网网址,获取该网址的html文件;
按照所述html文件中的标签提取网站内容;
计算所述网站内容中每个词的TF-IDF值;
预设html文件中各标签的重要程度值;
将每个词的所述TF-IDF值与该词所属标签的重要程度值相乘作为网站的文本特征;
根据网站的文本特征构建网站空间向量;
将网站空间向量输入训练好的空间向量评估分类模型进行网站危险等级评估,输出网站危险等级。
作为本发明的进一步改进,所述html文件中的标签包括title、link、body、 head、h1、b、strong、a href=“…”和i。
作为本发明的进一步改进,所述预设html文件中各标签的重要程度值,包括:
根据各标签使用位置的不同,设置其标签重要程度值;
标签重要程度值从大到小依次为titleheadh1bodystrong=bi linkahref=“…”。
作为本发明的进一步改进,当所述词所属的标签有多个时,计算多个标签的重要程度值平均值作为该词对应标签的重要程度值。
作为本发明的进一步改进,计算所述网站内容中每个词的TF-IDF值,其中每个词不包括应删除词,应删除词不能表示网页的危险程度,应删除词包括的、是、和、中、地、得。
作为本发明的进一步改进,根据网站的文本特征利用word2vec模型构建网站的空间向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110042695.X/2.html,转载请声明来源钻瓜专利网。





