[发明专利]一种互联网行为标注引擎及对应该引擎的行为标注方法有效
| 申请号: | 201310072271.3 | 申请日: | 2013-03-07 |
| 公开(公告)号: | CN103136360A | 公开(公告)日: | 2013-06-05 |
| 发明(设计)人: | 唐波;李骄阳;张祺;薛忠军;高福强;褚秀良;庞岩 | 申请(专利权)人: | 北京宽连十方数字技术有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 朱小兵 |
| 地址: | 100061 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 互联网 行为 标注 引擎 应该 方法 | ||
1.一种互联网行为标注引擎,包括分类体系模块、语义分析模块、爬取程序模块、规则库模块、知识库模块、规则解析器模块、自学习程序模块,其中:
所述分类体系模块依据HTTP日志标记规则对规则库模块和知识库模块中的数据进行分类,其中所述HTTP日志标记规则定义的基本逻辑结构为:用户行为=行为主体+行为标识+行为状态;
所述语义分析模块用于根据分类体系模块中定义好的分类项,识别出待处理文本隶属的分类类别;
所述爬取程序模块用于获取用户访问过的、待分类的互联网URL资源数据,并将这些数据保存到知识库模块中;
所述规则库模块含有互联网URL资源分类规则数据,用于分词库模块中文本分类之外的识别;
所述知识库模块用于存储互联网URL资源的内容对象集合;
所述规则解析器模块用于将规则库模块里的模式数据和用户访问的URL进行匹配,提取相应的产品对象、内容对象、用户动作信息;
所述自学习程序模块用于当识别出的URL内容对象在知识库模块里没有被检索到时,利用爬取程序模块从网络上将该条URL内容对象相关信息爬取下来,并保存到知识库模块中。
2.如权利要求1所述的一种互联网行为标注引擎,其特征在于:还包括一个分词库模块,该模块为文本分类技术所使用的词库,所述互联网行为标注引擎在面对文本信息数据时使用文本挖掘技术对用户在互联网上的行为进行分类和分析。
3.如权利要求1所述的互联网行为标注引擎,其特征在于,所述承建分类体系的HTTP日志标记规则中行为主体和行为标识是行为描述构成的必备项,行为状态为可选项,其中:
行为主体即用户,以用户ID的形式确定,在桌面互联网中,需要使用cookie追踪及用户模型来定位个体用户;
行为标识包括动作、对象和载体三个部分,为图状或网状结构;
行为状态反映了用户上网行为的客观物质条件,提供了理解行为主体和行为标识的语境,包括时间、位置和操作环境三个方面;
所述承建分类体系的HTTP日志标记规则中使用多元组描述结构描述用户上网行为,将一条用户上网日志分解为以下数据元素:用户、动作、对象、载体、时间、位置、接入点、终端、操作系统。
4.使用如权利要求1所述的互联网行为标注引擎实现互联网行为标注的方法,具体步骤如下:
(1)开始:调用行为标注引擎,需要输入6个参数,即用户电话号码、用户访问URL字符串、用户访问URL的内容类型、用户访问URL的服务器响应状态,用户访问URL的数据提交方式;
(2)日志清洗:行为标注引擎接收到参数后,首先根据传输的参数值,根据有效规则标识出无效的URL,仅对有效的URL在语义分析模块中进行分类操作,有效规则如下:
(201)网页内容类型的参数值为application/text、application/vnd.wap.wmlc、application/vnd.wap.xhtml+xml、application/xhtml+xml、application/xml、text/html、text/xhtml、text/plain、text/vnd.wap.wml中的一个;
(202)HTTP响应状态的参数值大于等于200且小于400;
(203)数据提交方式的参数值为get或post;
(3)产品匹配:在规则库模块中识别用户访问URL的网站产品信息;
(4)动作识别:在规则库模块中识别出用户在所访问网站中的操作;
(5)对象匹配:结合规则库模块中的存储信息利用规则解析器模块,当用户访问的URL资源对象是内容对象时,行为标注引擎将提取该内容对象的名称、分类等信息,通过将内容对象与知识库相关联,从而扩展内容对象的识别维度和描述粒度,对知识库中未存储的URL资源对象,通过爬取程序模块将该URL资源对象自学习至知识库中;
(6)UA 识别:利用规则解析器模块提取用户终端使用的UA信息;
(7)标注结果:即标明行为标注引擎对URL的分类解析结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京宽连十方数字技术有限公司,未经北京宽连十方数字技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310072271.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:旋转式压缩机和用于其的导管
- 下一篇:一种船舶上使用的便捷式可变径管型馈线卡





