[发明专利]一种网页信息的识别方法及装置有效

专利信息
申请号: 201310084318.8 申请日: 2013-03-15
公开(公告)号: CN104050198B 公开(公告)日: 2018-08-24
发明(设计)人: 冯景华;陈超;杨宝春 申请(专利权)人: 阿里巴巴集团控股有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京三友知识产权代理有限公司 11127 代理人: 李辉
地址: 英属开曼群岛大开曼*** 国省代码: 开曼群岛;KY
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 网页 信息 识别 方法 装置
【权利要求书】:

1.一种网页信息的识别方法,其特征在于,包括:

从数据库中获取网页日志信息,所述网页日志信息包括描述对象在发布日志中的特征信息以及曝光日志中的特征信息、点击日志中的特征信息和交易日志中的特征信息中的任意一个或任意多个;

按照描述对象所属的类目划分获取的所述网页日志信息,并统计各类目中的网页日志信息;

利用统计的所述各类目中的网页日志信息建立各类目的统计模型,根据所述各类目的统计模型确定各类目描述对象的特征信息分布;

判断被识别的网页信息中描述对象的特征信息是否在所属类目的特征信息分布的正常范围内;

如果是,确定所述被识别的网页信息为真实信息,否则,确定所述被识别的网页信息为虚假信息。

2.根据权利要求1所述的方法,其特征在于,当统计模型为高斯混合模型时,所述利用统计的所述各类目的网页日志信息建立各类目的统计模型,根据所述统计模型确定各类目描述对象的特征信息分布,包括:

采用最大期望算法解析所述统计的所述各类目的网页日志信息,利用解析结果建立各类目描述对象的高斯混合模型;

根据所述各类目描述对象的高斯混合模型确定各类目描述对象的特征信息分布。

3.根据权利要求2所述的方法,其特征在于,所述判断被识别的网页信息中描述对象的特征信息是否在所属类目的特征信息分布的正常范围内,包括:

根据被识别的网页信息的描述对象所属类目的高斯混合模型计算高斯混合分布的两个标准差数值范围;

判断被识别的网页信息中描述对象的特征信息是否在所述两个标准差数值范围内,如果是,被识别的网页信息中描述对象的特征信息在所属类目的特征 信息分布的正常范围内,否则,被识别的网页信息中描述对象的特征信息不在所属类目的特征信息分布的正常范围内。

4.根据权利要求1~3中任意一项所述的方法,其特征在于,在识别出网页信息为虚假信息后,还包括:

从搜索结果中过滤掉包含虚假的网页信息的网页,将过滤后的搜索结果反馈给客户端。

5.根据权利要求1~3中任意一项所述的方法,其特征在于,在得到各类目的特征信息分布后,还包括:

在对搜索结果中的各网页进行排序时,计算各网页的网页信息中描述对象的特征 信息在所属类目的特征信息分布中的概率;

按照所述概率从大到小的顺序对搜索结果中的各网页进行排序。

6.一种网页信息识别方法,其特征在于,包括:

从数据库中获取网页日志信息,所述网页日志信息包括描述对象在发布日志中的特征信息以及在曝光日志中的特征信息、点击日志中的特征信息和交易日志中的特征信息中的任意一个或任意多个;

按照描述对象所属的类目划分获取的所述网页日志信息,并统计各类目中的网页日志信息;

按照描述对象所属的子类目划分所述各类目的网页日志信息,并统计各类目中各子类目的网页日志信息;

利用统计的所述各类目中各子类目的网页日志信息建立各类目中各子类目的统计模型,根据所述统计模型确定各类目中各子类目描述对象的特征信息分布;

判断被识别的网页信息中描述对象的特征信息是否在所属类目下所属子类目的特征信息分布的正常范围内;

如果是,确定所述被识别的网页信息为真实信息,否则,确定所述被识别的网页信息为虚假信息。

7.根据权利要求6所述的方法,其特征在于,所述描述对象的特征信息至少包括标题信息;则所述按照描述对象所属的子类目划分所述各类目的网页日志信息,并统计各类目中各子类目的网页日志信息具体为:

采用语义分析工具对所述标题信息进行语义分析,得到各类目中的描述对象所属的子类目;

统计各类目中具有相同子类目的描述对象的网页日志信息。

8.根据权利要求6或7所述的方法,其特征在于,在识别出网页信息为虚假信息后,还包括:

从搜索结果中过滤掉包含虚假的网页信息的网页,将过滤后的搜索结果反馈给客户端。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310084318.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top