[发明专利]网络信息的处理方法和抽象语法树的建立方法及其装置有效
申请号: | 201210172822.9 | 申请日: | 2012-05-29 |
公开(公告)号: | CN103455476B | 公开(公告)日: | 2016-11-23 |
发明(设计)人: | 丰莎;陈国成;刘抚狄;蒋萌;王男 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q30/00 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 吴贵明;江舟 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络 信息 处理 方法 抽象 语法 建立 及其 装置 | ||
技术领域
本申请涉及互联网技术领域,特别地涉及一种网络信息的处理方法和装置、以及抽象语法树的建立方法和装置。
背景技术
电子商务网站作为一个商品交易平台(也可以称为:电子交易平台),每天有许多的卖家发布商品。一些信誉不好的卖家出于自身利益会利用这一平台违规发布一些商品。例如,欺骗消费者的广告商品、夸大宣传效果的商品、骗取网站搜索流量的商品、商品分类摆放不正确的商品等。为此,电子商务网站的管理人员一方面需要能够及时地阻止这些违规商品的发布,这要求从违规商品被发布到被检测的时间应当尽可能地短;另一方面需要对已经发布到网站的所有商品进行扫描,从中检测出违规商品,以便进行相应的处理。
目前对于电子商务网站收到的商品信息的检测,主要有“规则引擎+搜索引擎”的方式和基于数据库的信息检索方式,以下分别介绍这两种方式。
规则引擎是基于规则的专家系统的一部分,其核心是推理机,通过模式匹配器,推导事实与规则的匹配程度,当事实与规则匹配时,将规则装入规则优先级表中;之后,从规则优先级表中进行规则匹配,在匹配到的所有规则中选取优先级最高的规则(或者采用其他规则选择算法来选择规则),并执行相应的运作。典型的规则引擎包括Drools等,并有一些基于Drools的用于排查违规商品的业务系统。规则引擎适合于以流过滤的方式匹配目标数据,当遇到海量商品时,可以采用正向扫描的方式,逐一处理目标商品。
规则引擎可用于实时排查违规商品,搜索引擎可用于全量排查违规商品。但这种“规则引擎+搜索引擎”的方式存在如下缺点:
由于规则引擎和搜索引擎两者相对独立,因此两者的匹配规则之间无法兼容。针对同一个业务需求,需要分别设置两者各自的商品管理规则,导致维护、开发成本较高。
此外,现有的规则引擎语法过于复杂,其维护、编写规则的成本非常高;同时在语法增强方面的能力欠缺。由于正则表达式类型的匹配能力对于排查违规商品至关重要,而搜索引擎在面对需要支持正则表达式类型的匹配时,其实现成本高,性能差。
以下举一个分别用规则引擎和搜索引擎进行处理的例子。
例如,对于商品管理规则:禁止出现在标题中标注了包邮,而实际上商品价格中标注的邮费却不是0元的行为。
对于上述规则,还可以有一条补充规则,例如:标题中含有“江浙沪包邮”、“满100包邮”等在“包邮”之前添加限定词的商品,则不认为是违规商品。
根据上述限定的规则,“包邮五星皇冠手机”是违规的商品标题,而“江浙沪包邮五星皇冠手机”是非违规的商品标题。
对于上述规则的处理,需要用到正则表达式,在现有技术中,规则引擎能够支持正则表达式,采用规则引擎处理时的核心伪代码可以是:
import java.util.*;
rulebaoyouRule
no-loop false
salience 1
when
a:Auction(postage_price!=0,title matches“.+[]+|[]+包邮.*”,)
then
setCheckStaus(false);
a.setError(“您的商品违反了淘宝的商品管理规则,校验不通过”);
End
以下对正则表达式(“.+[]+|[]+包邮.*”)做出解释。
正则表达式是一种常用的文本匹配的技术。首先按照规则,定义一个模式(字符串);之后可以根据该模式,匹配目标字符串是否符合该模式定义的特征。不同的编程语言,其规则有些许差异,但大致原理相似。
IFDL中的正则表达式规则,与JAVA语言类似。
上述的模式“.+[]+|[]+包邮.*”,其各个字符的意义如下:(“[]”中含有一个空格)
“.”:表示可以匹配任意一个字符;
“+”,“?”,“*”,这三个字符均用于定义数量,“+”表示出现在其之前的字符,数量为1个或1个以上;“?”表示0个或者1个;“*”表示任意个;
“[]”:用中括号括起的一组字符,用于圈定字符范围;
“|”:表示or的关系;
因此根据上述的模式,可以匹配的目标字符串的特征是:
目标字符串含有“包邮”二字;
在“包邮”后面,紧跟着任意个字符(.*);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210172822.9/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置