[发明专利]一种基于位置服务采集新浪微博团购信息的方法有效

专利信息
申请号: 201310020773.1 申请日: 2013-01-21
公开(公告)号: CN103117919A 公开(公告)日: 2013-05-22
发明(设计)人: 张卫丰;王云;周国强;张迎周;王子元;周国富;钱小燕;许碧欢;陆柳敏 申请(专利权)人: 南京邮电大学
主分类号: H04L12/58 分类号: H04L12/58;G06F17/30
代理公司: 江苏爱信律师事务所 32241 代理人: 唐小红
地址: 210003 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明是一种基于位置服务采集新浪微博团购信息的方法,为了使得商家用户能实时发布团购消息,普通用户也能实时看到不同位置的团购信息,商家用户通过新浪微博平台发布团购信息,首先,利用新浪微博提供的开放位置服务接口,抽取在该位置附近发布的所有的微博数据信息;然后,将抽取出来的微博数据存放在数据库中,针对这些微博数据进行语料模式匹配预处理操作;接着,初步筛选出所有包含团购信息特征的微博数据;其次,使用语义分析技术,确定该条数据是否为团购信息;最后,成功地将团购信息从某一位置发布大量的微博数据中采集出来。
搜索关键词: 一种 基于 位置 服务 采集 新浪 微博团购 信息 方法
【主权项】:
1.一种基于位置服务采集新浪微博团购信息的方法,其特征在于该方法所包含的步骤为:步骤1) 抽取在某一具体位置附近发布微博的数据集信息:步骤1.1) 获取申请新浪微博应用的相关信息;步骤1.2) 分配授权信息;步骤1.3) 获取用户的该位置信息;步骤1.4) 根据位置服务的动态信息接口,抽取该位置附近发布的所有微博数据信息;步骤1.5) 存储抽取的所有微博数据信息;步骤2) 预处理微博数据集信息:步骤2.1) 获取微博数据集信息;步骤2.2) 获取团购语料库;步骤2.3) 初始化微博数据集中团购的相关信息:步骤2.3.1) 初始化微博数据集中的团购信息标志为1;步骤2.3.2) 初始化微博数据集中的团购关键词匹配次数为0;步骤2.4) 获取第一条微博数据信息;步骤2.5) 判断该微博数据是否包含团购语料库中的词语,如果包含,转步骤2.6),否则,转步骤2.8);步骤2.6) 计算微博数据匹配语料库关键词的次数;步骤2.7) 更新微博团购关键词匹配的次数;步骤2.8) 更新该微博数据的团购信息标志为0;步骤2.9) 获取下一条微博数据信息;步骤2.10) 判断该微博数据信息是否到达微博数据集的末端,如果到达,转步骤2.11),否则,转步骤2.5);步骤2.11) 删除团购信息标志为0的所有微博数据;步骤2.12) 更新微博数据集信息;步骤3) 对微博数据集进行分句:步骤3.1) 获取微博数据集中的第一条数据信息;步骤3.2) 获取该微博数据中的第一个字符信息;步骤3.3) 判断该字符是否为“;”,如果是,转步骤3.8),否则,转步骤3.4);步骤3.4) 判断该字符是否为如果是,转步骤3.8),否则,转步骤3.5);步骤3.5) 判断该字符是否为“!”,如果是,转步骤3.8),否则,转步骤3.6);步骤3.6) 判断该字符是否为“,”,如果是,转步骤3.8),否则,转步骤3.7);步骤3.7) 判断该字符是否为“”,如果是,转步骤3.8),否则,转步骤3.9);步骤3.8) 置换该字符为分句标识,用“/j”表示;步骤3.9) 获取下一个微博数据字符信息;步骤3.10) 判断是否到达微博数据的末端,如果到达,转步骤3.11),否则,转步骤3.3);步骤3.11) 更新微博数据信息;步骤3.12) 获取下一条微博数据信息;步骤3.13) 判断该微博数据是否为微博数据集的末端,如果到达,转步骤3.14),否则,转步骤3.2);步骤3.14) 更新微博数据集信息;步骤4) 对微博数据集进行分词,并标注词性:步骤4.1) 获取微博数据集中第一条数据信息;步骤4.2) 获取该微博数据中的第一个字符信息;步骤4.3) 判断该字符是否为分句标识,如果是,转步骤4.4),否则,转步骤4.6);步骤4.4) 设置分词等级;步骤4.5) 根据分词函数,标注词性;步骤4.6) 获取下一个微博数据字符信息;步骤4.7) 判断是否到达微博数据的末端,如果到达,转步骤4.8),否则,转步骤4.3);步骤4.8) 存储分词后的数据信息;步骤4.9) 获取下一条微博数据信息;步骤4.10) 判断该微博数据是否为微博数据集的末端,如果到达,转步骤4.11),否则,转步骤4.2);步骤4.11) 更新微博数据集信息;步骤5) 抽取微博数据集中的团购事件:步骤5.1) 获取微博数据集中第一条数据信息;步骤5.2) 获取该微博数据中的第一个字符信息;步骤5.3) 判断该字符是否为分句标识,如果是,转步骤5.4),否则,转步骤5.14);步骤5.4) 根据该句子的句法,标注词性;步骤5.5) 分析事件的语义特征;步骤5.6) 映射事件的命题实体;步骤5.7) 映射事件的代指概念;步骤5.8) 识别该句子中的动词;步骤5.9) 分析事件的论元结构属性;步骤5.10) 映射论元;步骤5.11) 完成该句子的事件抽取;步骤5.12) 判断该事件是否为团购事件,如果是,转步骤5.13),否则,转步骤5.14);步骤5.13) 更新该微博数据的团购信息标志为2;步骤5.14) 获取下一个微博数据字符;步骤5.15) 判断该微博数据字符是否到达微博数据的末端,如果到达,转步骤5.16),否则,转步骤5.3);步骤5.16) 获取下一条微博数据信息;步骤5.17) 判断该微博数据是否到达微博数据集的末端,如果到达,转步骤5.18),否则,转步骤5.2);步骤5.18) 更新微博数据集信息;步骤5.19) 完成团购事件的抽取。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201310020773.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top