[发明专利]一种社区管理服务大数据处理系统及其处理方法有效
| 申请号: | 201510070156.1 | 申请日: | 2015-02-10 |
| 公开(公告)号: | CN104615734B | 公开(公告)日: | 2017-10-03 |
| 发明(设计)人: | 丁帅;杨善林;蔡琼;徐健;潘禹辰;牛锋 | 申请(专利权)人: | 合肥工业大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 安徽省合肥新安专利代理有限责任公司34101 | 代理人: | 陆丽莉,何梅生 |
| 地址: | 230009 安*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种社区管理服务大数据处理系统及其处理方法,包括社区管理服务数据库、数据收集系统和数据集成系统;数据收集系统用于实现对社区管理服务大数据的采集;数据集成系统用于实现对社区管理服务大数据的转换与融合。本发明能形成面向社区管理服务的半结构化数据和结构化数据的采集机制,针对具有不同时效性的社区管理服务大数据形成高效的存储机制,为解决社区管理服务大数据冗余性高的问题形成完整的集成机制,从而提升社区管理服务大数据的处理效率。 | ||
| 搜索关键词: | 一种 社区 管理 服务 数据处理系统 及其 处理 方法 | ||
【主权项】:
一种社区管理服务大数据处理系统的处理方法,所述社区管理服务大数据处理系统,包括:社区管理服务数据库、数据收集系统和数据集成系统;所述数据收集系统包括半结构化数据采集模块和结构化数据采集模块;所述半结构化数据采集模块用于对社区管理服务的HTML格式数据进行定向采集,获得半结构化数据;所述结构化数据采集模块对社区管理服务数据库的数据进行定向采集,获得结构化数据;所述数据集成系统包括数据转换模块和数据融合模块;所述数据转换模块将所述半结构化数据转换为新结构化数据,所述数据融合模块对结构化数据和新结构化数据进行基于关键字的整合处理,获得社区管理服务的结构化数据;其特征是,所述处理方法按如下步骤进行:步骤1、获得半结构化数据并进行存储;步骤1.1、构建用于临时存储半结构化数据的XML模板文档;步骤1.2、利用筛选器对社区管理服务的HTML格式数据进行解析并定向抓取;获得半结构化数据;将所述半结构化数据存入所述XML模板文档中;步骤2、获得长期存储数据并进行存储;步骤2.1、对社区管理服务数据库中的任意长期存储数据进行定向采集,获得第v个长期结构化数据,记为表示所述第v个长期结构化数据Av中第i个的元素;1≤i≤n;1≤v≤V;V表示所述长期存储数据的总数;步骤2.2、创建用于存储所述第v个长期结构化数据Av的第一数据链栈与第二数据链栈步骤2.3、根据所述第v个长期结构化数据Av的生成时间将所述第v个长期结构化数据Av依次存入所述第一数据链栈并用元素属性Date来表示所述第v个长期结构化数据Av的生成时间,记为表示所述第v个长期结构化数据Av中第i个的元素的生成时间;步骤2.4、初始化i=1;则所述第一数据链栈中第i个元素表示栈顶元素;步骤2.5、令指针指向所述第i个元素步骤2.6、将所述第i个元素的生成时间与时间阈值A进行比较;在所述第i个元素生成时间大于所述时间阈值A时,取出所述第i个元素并压入到所述第二数据链栈中;并将i+1赋给i后,返回步骤2.5顺序执行;从而利用所述第二数据链栈完成长期存储数据的存储;并形成第v个长期存储数据表,进而获得V个长期存储数据表;步骤3、获得临时存储数据并进行存储;步骤3.1、根据设定周期对所述社区管理服务数据库中的临时存储数据进行定向采集,获得临时结构化数据;步骤3.2、创建容量为S的队列Queue1;步骤3.3、将所述临时存储数据压入所述队列Queue1;步骤3.4、用元素数据Data来表示存放在所述社区管理服务数据库中的其他临时存储数据;步骤3.5、判断所述队列Queue1是否空余,若空余,则将所述元素数据Data顺序存放在所述队列Queue1的队尾;若所述队列Queue1已满,则删除所述队列Queue1的队头元素,并将所述元素数据Data插入到所述队列Queue1的队尾;从而形成临时存储数据表;步骤4、将所述XML模板文档采用关键字映射机制生成结构化数据表;将所述半结构化数据存入所述结构化数据表;步骤5、对所述长期存储数据表、临时存储数据表与结构化数据表进行基于主键关联的去冗整合操作,包括:步骤5.1、对所述V个长期存储数据表、临时存储数据表与结构化数据表依次标记形成数据表label={label1,label2,…,labelj,…,labelv+2};labelj表示第j个数据表;1≤j≤V+2;步骤5.2、对所述数据表label依次设立整合标志位flag;记为flag={flag1,flag2,…,flagj,…,flagv+2};flagj表示第j个数据表labelj的整合标志位;步骤5.3、初始化j=1,flagj=1;则将第j个数据表labelj作为参照表;步骤5.4、将所述第j个数据表labelj与第j+1个数据表labelj+1按照相似度规则进行关键字相似度比较;所述相似度规则为:则设置flagj+1=1,并进行表整合操作,即labelj∪labelj+1=labelj∪j+1;并执行步骤5.5;若则设置flagj+1=0,并执行步骤5.6;步骤5.5、将labelj∪j+1赋值给labelj+1;判断j+1=V+2是否成立,若成立,表示完成表整合操作,形成社区管理服务数据表label′;并执行步骤5.7;否则,则将j+1赋值给j后返回步骤5.4;步骤5.6、将labelj+2赋值给labelj+1并返回步骤5.4;步骤5.7、在所述数据表label中任意挑选整合标志位flag为0的数据表作为参照表,并与其他整合标志位flag为0的数据表按照相似度规则进行关键字相似度比较,直到整合标志位flag为0的数据表都完成关键字相似度比较为止,从而形成最终更新的社区管理服务数据表;由此获得社区管理服务的结构化数据。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510070156.1/,转载请声明来源钻瓜专利网。
- 上一篇:一种志愿者地理信息信誉度计算方法
- 下一篇:一种获取保险关联信息的方法





