[发明专利]基于神经网络识别互联网网站所属业态的方法、装置以及计算机可读存储介质在审

专利信息
申请号: 202010932371.9 申请日: 2020-09-07
公开(公告)号: CN112149413A 公开(公告)日: 2020-12-29
发明(设计)人: 杨菁林;吴震;贺敏;唐积强;张露晨;林绅文;董琳;马秀娟;施力;张林波;陈梓瑄;潘晓;刘刚;胡晓光;周洋 申请(专利权)人: 国家计算机网络与信息安全管理中心;深圳市任子行科技开发有限公司
主分类号: G06F40/284 分类号: G06F40/284;G06F40/289;G06F40/30;G06F40/216;G06N3/04;G06N3/08
代理公司: 深圳市顺天达专利商标代理有限公司 44217 代理人: 郭伟刚;邹秋菊
地址: 100029*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 神经网络 识别 互联网 网站 所属 方法 装置 以及 计算机 可读 存储 介质
【说明书】:

发明提供一种基于神经网络识别互联网网站所属业态的方法、装置以及计算机可读存储介质。该方法包括:获取互联网网站业态的文本数据集,从所述文本数据集中提取文本特征词;基于所述文本特征词对所述文本特征词进行词向量化以获取词向量序列;将所述词向量序列分别输入递归神经网络及卷积神经网络模型,分别得到所述递归神经网络及卷积神经网络模型输出的目标特征向量,并将所述目标特征向量进行并联拼接;将已拼接的所述目标特征向量输入全连接神经网络,最后输出概率预测向量;查找所述概率预测向量中的最大值,并以所述最大值对应的业态作为所述互联网网站的所属业态。通过本发明,实现了高精度识别互联网网站的所属业态。

技术领域

本发明涉及深度学习技术领域,尤其涉及一种基于神经网络识别互联网网站所属业态的方法、装置以及计算机可读存储介质。

背景技术

依托互联网的发展,近些年互联网平台和运营的网站数量暴增,给国家相关管理机构的有效监督管理带来了极大困难和挑战。发现新增互联网网站,成为监管的核心前提工作。对于传统的发现互联网平台网站的方法,一是通过企业主动上报,二是通过搜索引擎进行人工搜索这两种手段实现,其具有以下不足:一是,企业主动上报备案是基于企业相对规模较大且运营正规,但对于一大部分非法集资形式、网络诈骗形式、色情资源形式、暴力传销形式等违法犯罪平台,都不会主动上报备案,但这些平台恰恰是管理部门重点关注的对象。二是,通过搜索引擎搜索发现平台网站的手段,需要投入大量的人力,效率低下,且发现平台数量及其有限。如此一来,识别互联网网站的细分业态对于互联网监管而言尤为重要。

现有技术中通常是基于机器学习的方法利用词袋模型对互联网网站的文本信息进行表示,从而识别互联网网站的所属业态,又或者是通过简单的卷积神经网络或循环神经网络识别互联网网站的所属业态。但这几种方式的前提默认了网站源码首页Head部分信息与Body部分信息的权重相同,但一般来说网站源码Head部分信息为精炼、上下文语义通顺的描述,Body信息为碎片化、上下文语义不通顺的文本描述且Body部分信息很容易导致信息冗余、信息的噪声,因此,Head信息与Body信息两者间的重要程度也需要有一个衡量标准,默认两者信息同等重要,在不分别对两部分信息进行处理且直接接入模型进行预测势必会导致识别准确率较低。

发明内容

本发明的主要目的在于提供一种基于神经网络识别互联网网站所属业态的方法及、装置以及计算机可读存储介质,旨在解决现有技术中对识别互联网网站所属业态进行识别的准确率较低的技术问题。

为实现上述目的,本发明实施例提供一种基于神经网络识别互联网网站所属业态的方法,所述基于神经网络识别互联网网站所属业态的方法包括:

获取互联网网站业态的文本数据集,从所述文本数据集中提取文本特征词;

基于所述文本特征词对所述文本特征词进行词向量化以获取词向量序列;

将所述词向量序列分别输入递归神经网络及卷积神经网络模型,分别得到所述递归神经网络及卷积神经网络模型输出的目标特征向量,并将所述目标特征向量进行并联拼接;

将已拼接的所述目标特征向量输入全连接神经网络,最后输出概率预测向量;

查找所述概率预测向量中的最大值,并以所述最大值对应的业态作为所述互联网网站的所属业态。

可选的,所述获取互联网网站业态的文本数据集,从所述文本数据集中提取文本特征词包括:

获取互联网网站的HTML源码;

对所述互联网网站的HTML源码进行解析,得到互联网网站的首页源码数据作为互联网网站的文本数据集;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;深圳市任子行科技开发有限公司,未经国家计算机网络与信息安全管理中心;深圳市任子行科技开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010932371.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top