[发明专利]网页数据分析方法及装置有效

申请号：	201410487202.3	申请日：	2014-09-22
公开（公告）号：	CN104199969B	公开（公告）日：	2017-10-03
发明（设计）人：	何鑫	申请（专利权）人：	北京国双科技有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京康信知识产权代理有限责任公司11240	代理人：	李志刚,吴贵明
地址：	100086 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	网页数据分析方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及数据分析领域，具体而言，涉及一种网页数据分析方法及装置。

背景技术

用户通常会抱有一定的目的和意图浏览网站。对于网站而言，了解用户访问的真实意图非常重要。网站通常会通过用户浏览网站的行为轨迹构造模型，训练分类器的方法对访问网站的用户进行分类，或是通过网站站内搜索词(Query)的热度对用户需求进行描述。

站内搜索的方式是用户主动寻找信息的行为，可以一定程度上描述用户需求。传统的站内搜索词聚类技术依赖于搜索词本身，通过词语间字面上的重叠进行计算，实现方案一般为：第一步：对关键词进行字面上的拆解(包括逐子或分词)，拆解以后的关键词可以表示为词(字)为单元的序列串；第二步：然后逐一计算每一对关键词对的相似度(jaccard或编辑距离等)，即比较两个搜索词的词串的吻合程度，并返回相似度的度量；第三步：使用聚类算法进行聚类，聚类算法包括k-means聚类或层次聚类等，不同的聚类算法实现方式不同但实质上并无差别。由于传统技术是通过关键词字面上的吻合程度来建立联系，并不符合实际情况，仅仅是生硬的构造一种相关依存关系，因此不能准确的解释用户需求。比如“三星”和“苹果”不包含任何字面上的匹配，但是相关性应该很高，另外“本田”和“本源”是完全无关的两类词，但是字面上仍然存在着相关依存关系。并且，现有的站内搜索词聚类技术需要计算每两个关键词之间的相似度，因此时间复杂度为o(n2)，不适用于大规模数据挖掘。

针对相关技术中网页数据分析方法仅仅依赖于搜索词字面上的重叠程度，从而导致的数据分析结果不能准确解释用户需求的问题，目前尚未提出有效的解决方案。

发明内容

针对现有的网页数据分析方法仅仅依赖于搜索词字面上的重叠程度，导致数据分析结果不能准确解释用户需求的问题而提出本发明，为此，本发明的主要目的在于提供一种网页数据分析方法及装置，以解决上述问题。

为了实现上述目的，根据本发明的一个方面，提供了一种网页数据分析方法。该方法包括：获取用户在网页上输入的m个关键词；获取m个关键词中存在依存关系的关键词，其中，对应的用户需求相同的关键词之间存在依存关系；以及将m个关键词中存在依存关系的关键词划分为同一类关键词。

进一步地，获取用户在网页上输入的m个关键词包括：在网页加载脚本文件代码；接收用户在网页的输入行为；以及通过脚本文件代码读取网页的输入行为所携带的m个关键词。

进一步地，获取m个关键词中存在依存关系的关键词包括：确定假设条件，其中，假设条件是假设的m个关键词的输入行为中包含的逻辑关系；根据假设条件创建图模型{G，S}，其中，G代表m个关键词的集合，S代表m个关键词之间的依存关系的集合；以及通过图模型，获取m个关键词中存在依存关系的关键词。

进一步地，通过图模型，获取m个关键词中存在依存关系的关键词包括：根据m个关键词之间的依存关系的强度计算转移概率，其中，转移概率是每个关键词属于与其存在依存关系的关键词的概率；以及按照转移概率对m个关键词进行迭代，获取m个关键词中存在依存关系的关键词。

进一步地，按照转移概率对m个关键词进行迭代，获取m个关键词中存在依存关系的关键词包括：假设在进行迭代之前第i个关键词属于第i关键词簇，其中，簇是一类关键词的集合，i＝1，2...m；按照转移概率对第i个关键词进行一次迭代，计算迭代后第i个关键词属于的第k关键词簇，其中，k∈{1，2...i-1,i+1...m}；判断第i簇和第k簇的差异是否小于预设值，其中，预设值是预先设定的关键词簇允许的误差值；如果第i簇和第k簇的差异大于预设值，则继续进行迭代；以及如果第i簇和第k簇的差异小于或者等于预设值，则停止迭代，获取第i个关键词属于的关键词簇中的所有关键词。

进一步地，将m个关键词中存在依存关系的关键词划分为同一类关键词之后，方法还包括：对多个同一类关键词分别进行命名；以及按照每一类关键词包含的关键词的数量，对命名后的多个同一类关键词进行排序。

为了实现上述目的，根据本发明的另一方面，提供了一种网页数据分析装置，该装置包括：第一获取单元，用于获取用户在网页上输入的m个关键词；第二获取单元，用于获取m个关键词中存在依存关系的关键词，其中，对应的用户需求相同的关键词之间存在依存关系；以及划分单元，用于将m个关键词中存在依存关系的关键词划分为同一类关键词。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司，未经北京国双科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201410487202.3/2.html，转载请声明来源钻瓜专利网。

上一篇：基于神经网络的桥梁损伤识别方法
下一篇：一种扫描二维码安装手机软件的方法以及装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]网页数据分析方法及装置有效

专利文献下载