[发明专利]一种违规在线商品检测方法有效

专利信息
申请号: 201210078995.4 申请日: 2012-03-22
公开(公告)号: CN102663025A 公开(公告)日: 2012-09-12
发明(设计)人: 张兰兰;田宁;谭磊;刘崟 申请(专利权)人: 浙江盘石信息技术有限公司
主分类号: G06F17/30 分类号: G06F17/30;G06Q30/00
代理公司: 杭州天正专利事务所有限公司 33201 代理人: 王兵;王利强
地址: 310011 浙江省*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 违规 在线 商品 检测 方法
【说明书】:

技术领域

发明涉及计算机网络技术,尤其是一种违规在线商品检测方法。

背景技术

近年来电子商务飞速发展,网络购物颠覆了传统的购物方式。互联网用户可以通过网络获取更广大的购物空间,突破地域的限制,可以随时购买自己想要的东西,没有营业时间的限制;可以按照自己需要的类别进行挑选,比对不同的价格,实现真正的自主购物;虽然看不到实物,选择的过程中可以参照已购者的评价和专家的建议,不用和商家进行接触,避免了讨价还价的环节中可能出现的摩擦和精神消耗,而且支付也异常快捷,可以避免现实中钱财被盗的现象,足不出户便可买到自己所需要的商品,网络购物可谓是省时省力。

网上购物因为方便快捷逐渐成为大家喜爱的一种购物方式,但是面对网络这样一种虚拟的环境,不免也存在一些信息的可信度问题。比如说商品的真伪,商品的描述故意夸大其功能,商品信息的描述隐含了非法内容等,商家经营权限的自主扩大,这些都严重扰乱了电子商务的次序,对消费者的合法权益造成伤害,对电子工商部门的监管带来了挑战。

现存的违规在线商品的智能判断方法,主要是利用元搜索引擎抽取商品的信息,返回的信息来自多个搜索引擎,需要做排重和重新排序处理后作为自己的搜索结果返回,筛选工作复杂而且信息处理是在信息抓取完成后进行,不具有即时性,对商品信息的抽取时采用正则表达式匹配进行抽取,不适合多变的页面模式。

发明内容

为了克服已有违规在线商品检测方法的计算复杂、不具有即时性、不适合多变的页面模式的不足,本发明提供一种简化计算、具有即时性、适合多变的页面模式的违规在线商品检测方法。

本发明解决其技术问题所采用的技术方案是:

一种违规在线商品检测方法,所述检测方法包括以下步骤:

(1)通过网络爬虫对待检测在线商品所在页面的信息进行爬取:

(11)对页面内容及页面URL进行分析,计算页面与商品信息主题的相关度并设定阀值,过滤掉与主题相关度小于阀值的页面,保留与主题密切的链接放入队列,根据优先级从队列选取链接爬取,直到存放页面URL的队列为空为止;

(12)对网络爬虫抓取的HTML网页,利用HTMLCleaner解析其结构层次关系,获取页面的DOM树结构,并删除形式标签,分析页面的结构;

(2)通过分析待检测在线商品所在的电子商务网站的DOM树结构,查找网页中与商品相关的信息在DOM树中的位置,并通过分析商品信息在DOM树中的位置,找到包含网页中多个结构相似的信息块的最小深度的节点作为临界节点,形成相关联信息点进行抽取的规则:

(a)临界节点只可能是块类型节点的子集,不可能是其他类型节点;

(b)临界节点的孩子节点中必然同时包括文本类节点、图片类型节点及样式类型节点;

(c)临界节点的兄弟节点必然大于等于2,且兄弟节点和当前边界节点有相同的节点名称及相似的属性;

根据抽取的规则建立模板,从爬虫获取的网页信息中提取商品属性信息数据;

(3)建立语义字典:首先对产品标记和产品属性采用人工方法进行语义提取,形成语义字典的静态部分;其次对电子商务产品涉及的概念,结合产品分类体系进行人工语义提取与构建;最后在人工构造初级字典的基础上,对语义字典进行扩充;

对提取的商品属性信息进行分词采用基于字符匹配的方法,在匹配词和分字典过程中采用二分查找,若检索词在字典中,返回表示结果的对象,此对象为词,则返回查找结果并储存,若不是一个词,则查找返回以所查询词开头位置最靠前的词;若不在字典,检查以给定字符串开头的其他词返回;

(4)采用人工建立违规语义库,通过函数IllegalList,将违规语义库中的词汇和经过分词的商品属性信息相关内容词语字段进行比对识别判断,根据函数返回的结果,判定违规在线商品的违规类别。

进一步,所述步骤(11)中,计算网页与商品信息主题相关度公式:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江盘石信息技术有限公司,未经浙江盘石信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210078995.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top