[发明专利]一种基于深度学习融合文本和结构特征的网页分类方法在审

专利信息
申请号: 201810737086.4 申请日: 2018-07-06
公开(公告)号: CN108984706A 公开(公告)日: 2018-12-11
发明(设计)人: 沈继忠;邓立;杜歆 申请(专利权)人: 浙江大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 杭州求是专利事务所有限公司 33200 代理人: 邱启旺
地址: 310058 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提供一种基于深度学习融合文本和结构特征的网页分类方法,首先用爬虫获得网页的HTML(HyperText Markup Language)文档,提取标题、meta、超链接等关键文本信息,并将文本词汇转化为向量(word2vec),表示文本特征;然后遍历HTML标签,并转化为向量,表示网页结构特征;最后将向量输入长短期记忆网络(LSTM)中,通过神经网络将异构的网页文本特征和网页结构特征融合起来训练模型,进行分类。该方法综合有区分度的特征更全面地表示网页,提高分类准确率。
搜索关键词: 向量 网页结构特征 网页分类 文本 融合 网页 分类准确率 爬虫 关键文本 记忆网络 神经网络 网页文本 文本特征 训练模型 超链接 区分度 遍历 文档 异构 转化 词汇 学习 分类
【主权项】:
1.一种基于深度学习融合文本和结构特征的网页分类方法,其特征在于,该方法包括如下步骤:步骤(1),用爬虫获得网页的HTML文档;步骤(2),从HTML标签、<meta>、<Hn>、<a>、<b>、<p>中提取关键文本信息,并将文本信息中的词汇转化为向量,表示文本特征;步骤(3),遍历HTML标签,并转化为向量,表示网页结构特征。步骤(4),将向量输入长短期记忆网络中,通过神经网络将异构的网页文本特征和网页结构特征融合起来训练模型,进行分类。</div> </div> <div class="b20"></div> <div class="down-box" id="down-box"> <div class="msg" style="display: block;"> <span>下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。</span> </div> <div class="btns"> <span class="btn paydown">免登录下载</span><a href="/login.html?p=8684656C99F5006F9E8CC722AD47846DD67206741CF8B46A" class="btn green" target="_blank">普通用户下载</a><a href="http://yh.vipzhuanli.com/member/service/pay-vip.html?p=v1" target="_blank" class="btn red">升级VIP会员,免费下载</a> </div> </div> <div class="warning"> <p>该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【<a href="https://wpa1.qq.com/l11yQAzu?_type=wpa&qidian=true">客服</a>】</p> <p>本文链接:http://www.vipzhuanli.com/patent/201810737086.4/,转载请声明来源钻瓜专利网。</p> </div> <ul class="clear_div other_o"><li class="prev">上一篇:<a href="/patent/201810736548.0/" title="一种具有关注点推送功能的在线学习系统和推送方法">一种具有关注点推送功能的在线学习系统和推送方法</a></li><li class="next">下一篇:<a href="/patent/201810737268.1/" title="分享个人信息的方法、装置、终端设备及存储介质">分享个人信息的方法、装置、终端设备及存储介质</a></li></ul> <div class="oth-box"> <dl class="d_th"><dd><span>同类专利</span></dd><dt class="th_a"></dt></dl> <dl class="d_th" style="padding-top:15px;"><dd><span>专利分类</span></dd></dl> <div class="ps_c"> <div><a href="/ipc/G/" target="_blank" title="物理">G 物理</a></div><a class="ml1" href="/ipc/G06/" target="_blank" title="计算;推算;计数">G06 计算;推算;计数</a><br/><a class="ml2" href="/ipc/G06F/" target="_blank" title="电数字数据处理">G06F 电数字数据处理</a><br/><a class="ml3" href="/pat/ipc/G06F17/00/" target="_blank" title="特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法">G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法</a><br/><a class="ml3" href="/pat/ipc/G06F17/10/" target="_blank" title=".复杂数学运算的">G06F17-10 .复杂数学运算的</a><br/><a class="ml3" href="/pat/ipc/G06F17/20/" target="_blank" title=".处理自然语言数据的">G06F17-20 .处理自然语言数据的</a><br/><a class="ml3" href="/pat/ipc/G06F17/30/" target="_blank" title=".信息检索;及其数据库结构">G06F17-30 .信息检索;及其数据库结构</a><br/><a class="ml3" href="/pat/ipc/G06F17/40/" target="_blank" title=".数据的获取和记录">G06F17-40 .数据的获取和记录</a><br/><a class="ml3" href="/pat/ipc/G06F17/50/" target="_blank" title=".计算机辅助设计">G06F17-50 .计算机辅助设计</a><br/> </div> </div> </div> <div class="content-r"> <div class="btns content-list" id="downdd"> <div class="header"> <div class="header-title"><a >专利文件下载</a></div> <hr /> </div> <span class="btn paydown">免登录下载</span><a href="/login.html?p=8684656C99F5006F9E8CC722AD47846DD67206741CF8B46A" class="btn green" target="_blank">普通用户下载</a><a href="http://yh.vipzhuanli.com/member/service/pay-vip.html?p=v1" target="_blank" class="btn red">升级VIP会员,免费下载</a> </div> <div class="content-list"> <div class="header"> <div class="header-title"><a href="/patent/list.html?kw=%e5%90%91%e9%87%8f ">向量 相关专利</a></div> <hr /> </div> <ul> <li><a href="/patent/200610166736.1/">移动向量解码方法和移动向量解码装置</a></li> <li><a href="/patent/201310186771.X/">一种用于支持向量机的在线向量选取方法</a></li> <li><a href="/patent/201610589737.0/">用于在帧序列中执行运动估计的数据处理系统和方法</a></li> <li><a href="/patent/201711090247.7/">神经网络的处理方法及装置、存储介质、电子设备</a></li> <li><a href="/patent/201810257040.2/">字符序列处理方法及设备</a></li> <li><a href="/patent/201811475063.7/">向量获取方法、装置、电子设备以及计算机可读存储介质</a></li> <li><a href="/patent/201811475065.6/">向量获取方法、装置、电子设备以及计算机可读存储介质</a></li> <li><a href="/patent/202010003861.0/">近邻向量的召回方法、装置、计算机设备及存储介质</a></li> <li><a href="/patent/202010317170.8/">一种向量运算装置及运算方法</a></li> <li><a href="/patent/202010567257.0/">生成类别向量的方法和装置</a></li> </ul> </div> <div class="content-list"> <div class="header"> <div class="header-title"><a href="/patent/list.html?kw=%e7%bd%91%e9%a1%b5%e7%bb%93%e6%9e%84%e7%89%b9%e5%be%81 ">网页结构特征 相关专利</a></div> <hr /> </div> <ul> <li><a href="/patent/201210058024.3/">一种网页类型识别方法和系统</a></li> <li><a href="/patent/201310351347.6/">确定网页属性的方法及装置</a></li> <li><a href="/patent/201410243436.3/">电视浏览器的控制方法和装置</a></li> <li><a href="/patent/201410504901.4/">一种网页分类方法及装置</a></li> <li><a href="/patent/201610311779.8/">网页相似度计算方法及装置</a></li> <li><a href="/patent/201711013266.X/">一种网页请求识别方法及装置</a></li> <li><a href="/patent/201711417014.3/">网页分类方法、装置以及计算机可读存储介质</a></li> <li><a href="/patent/201810737086.4/">一种基于深度学习融合文本和结构特征的网页分类方法</a></li> <li><a href="/patent/201910743292.0/">一种网页连接识别方法、装置及存储介质</a></li> <li><a href="/patent/202010535869.1/">网页页面特征的篡改检测方法及装置</a></li> </ul> </div> <div class="content-list"> <div class="header"> <div class="header-title"><a href="/patent/list.html?kw=%e7%bd%91%e9%a1%b5%e5%88%86%e7%b1%bb ">网页分类 相关专利</a></div> <hr /> </div> <ul> <li><a href="/patent/200510089648.1/">利用摘要来分类显示页的方法和系统</a></li> <li><a href="/patent/201210287317.9/">网页分类方法及设备</a></li> <li><a href="/patent/201410504901.4/">一种网页分类方法及装置</a></li> <li><a href="/patent/201410710621.9/">一种网页广告过滤系统</a></li> <li><a href="/patent/201510378183.5/">一种网页分类的方法和装置</a></li> <li><a href="/patent/201710326233.4/">一种网页分类的确定方法及装置</a></li> <li><a href="/patent/201711375002.9/">网页分类方法及装置、存储介质及电子设备</a></li> <li><a href="/patent/201810694720.0/">网页分类方法、装置及计算机可读存储介质</a></li> <li><a href="/patent/201910212057.0/">一种网页分类方法及装置</a></li> <li><a href="/patent/202110673830.0/">网页分类方法、装置、电子设备、及存储介质</a></li> </ul> </div> <div class="content-list"> <div class="header"> <div class="header-title"><a href="/patent/list.html?kw=%e6%96%87%e6%9c%ac ">文本 相关专利</a></div> <hr /> </div> <ul> <li><a href="/patent/201910374177.0/">文本匹配方法及装置</a></li> <li><a href="/patent/201910832504.2/">互联网金融非显性广告识别方法及装置</a></li> <li><a href="/patent/202010051191.X/">文本结论智能推荐方法、装置及计算机可读存储介质</a></li> <li><a href="/patent/202010737496.6/">文本检索方法、装置及设备、文本检索模型的训练方法</a></li> <li><a href="/patent/202010841991.1/">基于级连模式的文本匹配方法及装置</a></li> <li><a href="/patent/202011282512.3/">一种文本关系提取方法、装置及电子设备</a></li> <li><a href="/patent/202011594885.4/">文本的标准化处理方法、装置、电子设备及计算机介质</a></li> <li><a href="/patent/202110488250.4/">文本标签确定方法、装置、计算机设备和存储介质</a></li> <li><a href="/patent/202110541630.X/">文本图像合成方法、装置、设备及存储介质</a></li> <li><a href="/patent/202110554777.2/">文本生成方法、装置和电子设备</a></li> </ul> </div> </div> </div> </div> <input type="hidden" id="hid_id" /> <script type="text/javascript"> /* <![CDATA[ */ var pat_ajax_url = "/down/check.html"; var wppay_ajax_url = "/pay/down"; var pnum = "201810737086.4"; var openNo = "CN108984706A"; var op = "20181211"; var y = "2018"; /* ]]> */ </script> <script type="text/javascript" src="/js/popup.min.js"></script> <script type="text/javascript" src="/js/patent-pay.js"></script> <script src="/js/reveal.js" type="text/javascript"></script> <div id="myModal" class="reveal-modal"> <a class="close-reveal-modal">×</a> <h1>专利文献下载</h1> <div class="warning"> <p>说明:</p> <p>1、专利原文基于中国国家知识产权局专利说明书;</p> <p>2、支持发明专利 、实用新型专利、外观设计专利(升级中);</p> <p>3、专利数据每周两次同步更新,支持Adobe PDF格式;</p> <p>4、内容包括专利技术的<span class="red">结构示意图</span>、<span class="red">流程工艺图</span>或<span class="red">技术构造图</span>;</p> <p>5、已全新升级为极速版,下载速度显著提升!欢迎使用!</p> <div class="data"><p>请您登陆后,进行下载,点击<a href="/login.html?p=8684656C99F5006F9E8CC722AD47846DD67206741CF8B46A" target="_blank">【登陆】</a> <a href="/reg.html" target="_blank">【注册】</a></p><p style="margin-top:10px;"><a href="http://yh.vipzhuanli.com/member/service/pay-vip.html?p=v1"><img src="/images/ad/002.png" /></a></p></div> </div> <div style="position: relative;height: 0;top: 50px;margin-left: -40px;"><a href="http://www.zuangua.cn/trademark"><img src="http://www.vipzhuanli.com/images/ad/005.png"></a></div> </div> <script type="text/javascript"> $(function () { $(".btn-down").click(function () { downfile('201810737086.4', '20181211', '2018'); }); $(".downtz").click(function () { window.location.hash = "#down-box";}); var t = $("#downdd").offset().top; $(window).scroll(function () { //console.log($(document).scrollTop()); //console.log(t); if ($(document).scrollTop() <= t) { $("#downdd").removeClass("r-down-box"); } else { $("#downdd").addClass("r-down-box"); } }); }); </script> <div class="link wrap"> <div class="link f16">友情链接:交换友情链接需要网站权重大于4,网站收录10W以上,如符合条件,请联系QQ:。</div> </div> <div class="bottom"> <p class="bot1 tc f16 wrap"> <a href="/about.html">关于我们</a> <a href="/report.html">寻求报道</a> <a href="/submission.html">投稿须知</a> <a href="/cooperation.html">广告合作</a> <a href="/notice.html">版权声明</a> <a href="/sitemap.html">网站地图</a> <a href="/link.html">友情链接</a> <a href="/standard.html">企业标识</a> <a href="/contact.html">联系我们</a> </p> <div class="bot2"> <a href="/"><img class="fl" src="/images/index/logo.png" alt="钻瓜专利网" /></a><a href=""><img class="qq fl" src="/images/index/qq.jpg" alt="在线咨询" /></a> <p class="tel fl f12 white"><span class="f24"></span>周一至周五 9:00-18:00</p> </div> </div> <div class="copyright tc white f12"> <span>版权所有</span><span></span><a class="white" href="http://www.beian.miit.gov.cn/"></a><span class="beian"><a target="_blank" class="white" href="http://www.beian.gov.cn/portal/registerSystemInfo?recordcode=12019202000206"></a></span><span><a class="white" href="http://www.vipzhuanli.com/">http://www.vipzhuanli.com/</a></span><a class="white" href="/pat/open.html" title="专利公布日期列表">公布日期</a> <script type="text/javascript">var cnzz_protocol = (("https:" == document.location.protocol) ? " https://" : " http://"); document.write(unescape("%3Cspan id='cnzz_stat_icon_1256047260'%3E%3C/span%3E%3Cscript src='" + cnzz_protocol + "s4.cnzz.com/z_stat.php%3Fid%3D1256047260%26show%3Dpic' type='text/javascript'%3E%3C/script%3E"));</script> </div> <div class="suspension"> <div class="suspension-qq"><a href="" id="IndexQQ" target="_blank"><div class="qq"><img src="/images/qq-3.png" alt="咨询在线客服" /><span>咨询在线客服</span></div></a></div> <div class="suspension-box"> <a class="a tel j-icon"><i>tel</i></a> <a class="code j-icon a"><i>code</i></a> <a class="back_top j-back-top a" style="display: block;"><i>back_top</i></a> <div class="tel j-box" style="display: none;"><strong>服务热线:</strong><p></p><strong>投诉建议:</strong><p></p><i></i></div> <div class="code j-box" style="display: none;"><img src="/images/vode.jpg" alt="钻瓜专利网公众平台" /><p>扫一扫,微信关注钻瓜专利网</p><i></i></div> </div> </div> <div class="product-b-pop" style="display:none;"><i class="close"></i><a class="aa" href="http://www.vipzhuanli.com" target="_blank"></a><span class="title">定制<span>专利</span>/购买<span>专利</span></span><span class="txt"><span class="txt_tab"><span><p class="t">行业大牛为您服务 快来咨询~</p><p class="dh"></p></span></span></span><a class="a" href="" title="在线客服" target="_blank"></a></div> <!-- WPA Button Begin --> <!-- WPA Button End --> </body> </html> <script type="text/javascript"> $(function () { lo(); $(".product-b-pop .close").click(function () { $(".product-b-pop").hide(); }); $(function () { $(".left-bar .close,.right-bar .close").click(function () { $(this).addClass("hide"); $(".left-bar .hide").click(function () { $(".left-bar").hide(); }); $(".right-bar .hide").click(function () { $(".right-bar").hide(); }); }); }); }); </script> <!--百度统计--> <script> //自动推送 (function () { var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })(); </script> <!--360自动收录 start--> <script> (function () { var src = (document.location.protocol == "http:") ? "http://js.passport.qihucdn.com/11.0.1.js?4d554302e3bcd9b0c6bd431aa61ade93" : "https://jspassport.ssl.qhimg.com/11.0.1.js?4d554302e3bcd9b0c6bd431aa61ade93"; document.write('<script src="' + src + '" id="sozz"><\/script>'); })(); </script> <!--360自动收录 end--> <script charset="UTF-8" id="LA_COLLECT" src="//sdk.51.la/js-sdk-pro.min.js?id=Jg8vTg0GIi1P7h48&ck=Jg8vTg0GIi1P7h48"></script>