[发明专利]基于脚本引擎的微博用户关系采集方法有效
申请号: | 201210114869.X | 申请日: | 2012-04-17 |
公开(公告)号: | CN103377207A | 公开(公告)日: | 2013-10-30 |
发明(设计)人: | 都云程 | 申请(专利权)人: | 北京拓尔思信息技术股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100088 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 脚本 引擎 用户 关系 采集 方法 | ||
技术领域
本发明属于信息技术领域,具体地说,是涉及一种基于脚本引擎的微博用户关系采集方法。
背景技术
伴随着WEB信息技术的迅猛发展,实体社交关系的研究受到学术界和商业界的密切关注。社交关系随着新兴起的互联网模式——微博的发展呈现指数级的膨胀,如Facebook、LinkedIn、新浪等其中蕴含着大量的用户关系,这些用户关系中潜藏着很大的商业价值。
微博用户关系抽取是微博海量信息实时采集的一个基础任务。微博用户关系有助于提供微博信息更新采集的策略,可以作为微博海量信息采集时实时更新采集的一条线索,是微博深入研究的基础资源。
目前,微博客用户关系抽取主要采用基于微博开放API的方式,借助微博特有的“Following”和“Followed”规则。因而所获取信息的数量、范围、频度受微博API的限制。这种方法一些不足,其一,采集系统只能按照应用需求的频度和范围获取有限的数据;其二,针对不同API限制访问频率不同,影响数据的动态更新;其三,抽取的用户信息及用户关系不完备,造成采集率不高。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何解决微博中用户信息的规模化采集,提高采集率,构建较为完备的用户关系。
(二)技术方案
为解决上述技术问题,本发明提供了一种基于脚本引擎的用户关系采集方法,所述方法包括以下步骤:
S1,采用脚本引擎技术自动登录微博客网站,实现对微博客网站的高精确度采集;
S2,采用网页采集方式对特定账户信息爬取其对应内容页面信息;
S3,利用元数据解析技术对其中的用户信息、用户行为机制进行解析,获得用户信息;
S4,在S3的基础上,利用用户行为机制,实现用户关联关系抽取,并进行存储;
S5,使用广度优先遍历用户列表,对每个采集到的用户id重复上述步骤,将采集到的信息不断丰富用户关系列表;
其中,在步骤S1中,采用Javascript脚本语言实现组态软件的脚本功能,采用SpiderMonkey实现组态软件脚本模块的嵌入引擎,只解析页面中与生产连接和微博客内容相关的脚本;
在步骤1中,对脚本引擎中的解释器进行扩展,使其同时具有解释和编译两种执行模式;
脚本引擎框架设计要达到的目标是将SpiderMonkey嵌入到组态软件的引擎模块中,使其具有最基本的JavaScript语言处理能力,其实现步骤具体包括:
S11,创建引擎封装类JSEngine;
S12,实现脚本引擎的初始化输出函数InitScript();
S13,实现脚本引擎的卸载输出函数UnInitScript();
其中,步骤S3的实现,具体包括:
S31,总结各微博网页的HTML文档结构,找出不同结点的标签的区别;
S32,根据S31中的HTML文档结构规律过滤掉无效信息,将HTML转化为XHTML,得到标准的XHTML文档,并对文档进行DOM树解析,建立元数据特征模板;
S33,匹配模板,根据XHTML文档特点,设计算法,实现模板集里面的模板匹配效果;
S34,根据匹配到的模板结点路径,提取所需信息,按照一定的格式存放。
步骤S3中,用户行为机制包括:用户“关注和被关注”的追随机制,用户推送信息的转发、评论机制;
步骤S4中,对用户关系抽取的具体实现步骤为:
S41,寻找Following和Follower的用户URL;
S42,过滤URL放入URL队列中,作为待采集对象;
S43,结合当前用户的URL,按照S3中的用户行为机制,建立用户关联关系表,并进行存储;
其中,在步骤S5中,使用广度优先遍历方式遍历用户列表,采集每个用户列表信息到本地,同时对用户进行去重入库。
附图说明
图1为本发明提供的一种基于脚本引擎的微博用户关系采集方法的流程示意图;
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1示出了本发明实施例所提供的微博用户关系模块化采集方法的流程示意图,如图1所示,所述方法包括以下步骤:
S1:采用脚本引擎技术自动登录微博网站;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京拓尔思信息技术股份有限公司,未经北京拓尔思信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210114869.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种集成磁传感器
- 下一篇:电力杆塔倾斜角度测量仪