[发明专利]专家系统URL清洗知识库的“垃圾”内容过滤方法有效

申请号：	201410127394.7	申请日：	2014-03-31
公开（公告）号：	CN103902707B	公开（公告）日：	2017-10-24
发明（设计）人：	孙宏;赵晓波;季海东;董童霖;赵宇龙	申请（专利权）人：	郭磊
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京华沛德权律师事务所11302	代理人：	修雪静
地址：	110020 辽宁省***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于专家系统 url 清洗知识库垃圾内容过滤方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于数据清洗、数据过滤领域，特别是涉及到一个基于专家系统URL清洗知识库的移动互联网访问内容的“垃圾”过滤方法。

背景技术

随着移动互联网的迅猛发展，特备是3G、4G互联网普及，原本只有专业和时尚人士上网变成几乎人人都能上网，带来了全民上网的信息化时代，造成信息爆炸。有效的组织管理好互联网信息，并从这些海量的大数据中快速、准确、全面的获取客户的兴趣特征，是对当今信息科学技术领域的一大挑战。数据清洗技术，作为处理海量互联网文本数据的关键技术，可以解决电信运营商智能营销的问题，达到提高效率、降低成本、减少投诉、增加收益精细化运营的目的。

中国移动、中国电信和中国联通三大运营商每天从固网（IP网）、移动互联网（2G、3G、4G）从DPI分光数据中获取的移动互联网访问数据规模，小者几亿条访问记录，多者上百亿，因此数据清洗过滤工作是用户移动互联网访问行为分析的基础。传统数据清洗主要目的是保持数据一致性，处理无效值和缺失值，即处理不完整的数据、错误的数据、重复的数据。但是，移动互联网访问数据清洗不仅要清洗传统意义上的噪声或脏数据，还要清洗掉导航、统计、功能、接口、脚本、天气、流量、登录、下载、版权等不是用户最终访问内容（页面URL）。因此，这部分内容对于用户访问兴趣偏好就是“垃圾”，这也正是本发明要解决的问题。

发明内容

鉴于以上存在的问题，本发明的目的在于：提供一种通过人工智能专家系统构建的基于“URL清洗知识库”的“垃圾”内容过滤方法，旨在解决电信运营商百亿级海量“垃圾”内容（页面URL）清洗的问题。

本发明的目的是通过如下技术方案实现：

一种基于专家系统的URL清洗知识库的“垃圾”内容过滤方法，其特征在于，包括如下步骤：

（1）格式验证：完整性验证，即访问记录的核心字段是否包括用户ID，URL格式，访问时间（包括日期YYYY-MM-DD和时间HH:MM:SS），只要不包括其中一个字段，即为数据不完整，则清洗掉该条记录；一致性验证是验证用户ID、URL和访问时间格式是否规范，若不规范，则清洗掉该条记录；

（2）“完全URL”垃圾清洗推理：从“URL清洗知识库”读取清洗知识，在完全URL特征的Hash散列表中，推理在原始的访问记录页面URL中是否存在“完全URL”为“垃圾”页面特征？若存在，执行步骤（7）推理。若不存在，则进行步骤（3）推理；

（3）“含一级域名”垃圾清洗推理；从原始URL中截取“一级域名”，构造为特征容器包装类TSDL，在“一级域名”特征的Hash散列表中，推理是否存在TSDL为“垃圾”页面的特征。若存在“一级域名”，则进行步骤（5）推理。若不存在，则执行步骤（4）推理；

（4）“不含一级域名”垃圾清洗推理：若不存在“一级域名”，则获取不含一级域名“垃圾”页面特征知识的List，在List中包括后缀、左侧、左右和包含四类匹配知识，按照知识特征的置信度降幂顺序进行匹配推理。若匹配成功，则执行步骤（7）推理。若匹配失败，则数据清洗结束。

（5）“完整域名”垃圾清洗推理：从原始URL中截取“完整域名”，构造为特征容器包装类DOMAIN，在完整域名特征的Hash散列表中，推理是否存在DOMAIN为“垃圾”页面的特征；若存在“完整域名”，则获取完整域名“垃圾”页面特征知识的List，在List中有右侧匹配知识和包含匹配知识，如果匹配成功，执行步骤（7）推理，如果匹配失败，执行步骤（6）推理；

（6）“不完整域名”垃圾清洗推理：若在Hash散列表中不存在“完整域名”，则获取不完整域名“垃圾”特征的知识List，在List中包括左侧、左右和包含三类匹配知识，按照“不完整域名”知识特征的置信度降幂顺序进行匹配推理。若匹配成功，则执行步骤（7）推理。若匹配失败，则执行步骤（4）推理；

（7）若清洗推理匹配成功，则对“URL清洗知识库”进行更新，同时在原始“移动互联网访问记录”中删除“垃圾”数据，数据清洗结束。

其中步骤（2）中的“URL清洗知识库”的初始集建立，其特征在于：是通过一天的“基于客户移动互联网访问行为分析”Top排名的“垃圾”页面作为训练集，通过下一天Top排名的“垃圾”页面作为测试集，反复测试，直至达到要求的覆盖率后而建立完成，其是一个机器分析人工验证的过程。

所述步骤（7）中的“URL清洗知识库”知识更新，其步骤包括：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于郭磊，未经郭磊许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201410127394.7/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]专家系统URL清洗知识库的“垃圾”内容过滤方法有效

专利文献下载