[发明专利]专家系统URL清洗知识库的“垃圾”内容过滤方法有效

申请号：	201410127394.7	申请日：	2014-03-31
公开（公告）号：	CN103902707B	公开（公告）日：	2017-10-24
发明（设计）人：	孙宏;赵晓波;季海东;董童霖;赵宇龙	申请（专利权）人：	郭磊
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京华沛德权律师事务所11302	代理人：	修雪静
地址：	110020 辽宁省***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：	基于专家系统URL清洗知识库的“垃圾”内容过滤方法，属于海量大数据清洗、数据顾虑领域。本发明采用人工智能专家系统的方法，通过“完全URL”、“含一级域名”、“不含一级域名”、“完整域名”和“不完整域名”等分类规则的推理，以及与其List下的“左侧”、“左右”、“包含”和“右侧”等分类知识的匹配；若数据清洗推理匹配成功，则对“URL清洗知识库”实时进行更新，将该访问记录页面从原始的“移动互联网访问记录”中清洗掉，即删除，数据清洗结束。若推理匹配失败，则数据清洗失败。对URL清洗知识库的更新，使系统变得越来聪明，不仅提高了清洗过滤的效率，更重要是提高了内容分类的覆盖面和准确程度。
搜索关键词：	基于专家系统 url 清洗知识库垃圾内容过滤方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

基于专家系统URL清洗知识库的“垃圾”内容过滤方法，其特征在于，包括：（1）格式验证：完整性验证，即访问记录的核心字段是否包括用户ID，URL格式，访问时间，只要不包括其中一个字段，即为数据不完整，则清洗掉该条记录；一致性验证是验证用户ID、URL和访问时间格式是否规范，若不规范，则清洗掉该条记录；（2）“完全URL”垃圾清洗推理：从“URL清洗知识库”读取清洗知识，在完全URL特征的Hash散列表中，推理在原始的访问记录页面URL中是否存在“完全URL”为“垃圾”页面特征：若存在，则执行步骤（7）推理；若不存在，则进行步骤（3）推理；（3）“含一级域名”垃圾清洗推理：从原始URL中截取“一级域名”，构造为特征容器包装类TSDL，在“一级域名”特征的Hash散列表中，推理是否存在TSDL为“垃圾”页面的特征：若存在“一级域名”，则进行步骤（5）推理；若不存在，则执行步骤（4）推理；（4）“不含一级域名”垃圾清洗推理：若不存在“一级域名”，则获取不含一级域名“垃圾”页面特征知识的List，在List中包括后缀、左侧、左右和包含四类匹配知识，按照知识特征的置信度降幂顺序进行匹配推理：若匹配成功，则执行步骤（7）推理；若匹配失败，则数据清洗结束；（5）“完整域名”垃圾清洗推理：从原始URL中截取“完整域名”，构造为特征容器包装类DOMAIN，在完整域名特征的Hash散列表中，推理是否存在DOMAIN为“垃圾”页面的特征：若存在“完整域名”，则获取完整域名“垃圾”页面特征知识的List，在List中有右侧匹配知识和包含匹配知识，如果匹配成功，执行步骤（7）推理；如果匹配失败，执行步骤（6）推理；（6）“不完整域名”垃圾清洗推理：若在Hash散列表中不存在“完整域名”，则获取不完整域名“垃圾”特征的知识List，在List中包括左侧、左右和包含三类匹配知识，按照“不完整域名”知识特征的置信度降幂顺序进行匹配推理：若匹配成功，则执行步骤（7）推理，若匹配失败，则执行步骤（4）推理；（7）若清洗推理匹配成功，则对“URL清洗知识库”进行更新，同时在原始“移动互联网访问记录”中删除“垃圾”数据，数据清洗结束。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于郭磊，未经郭磊许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201410127394.7/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]专家系统URL清洗知识库的“垃圾”内容过滤方法有效

专利文献下载