[发明专利]用于跟踪与通过关联的文本和图像可识别的实体相关的微博消息的方法和装置在审
申请号: | 201480054392.8 | 申请日: | 2014-07-31 |
公开(公告)号: | CN105593851A | 公开(公告)日: | 2016-05-18 |
发明(设计)人: | 王芳林;高跃;栾焕博;蔡达成 | 申请(专利权)人: | 新加坡国立大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 郑小粤 |
地址: | 新加坡*** | 国省代码: | 新加坡;SG |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 跟踪 通过 关联 文本 图像 识别 实体 相关 消息 方法 装置 | ||
领域
本发明涉及一种用于跟踪微博消息的方法和装置,其中所述微博消息与通过关联的 文本和图像可识别的实体相关。
背景
社交媒体平台[15,17],如推特TM、脸书TM或新浪微博TM,已经成为普遍存在并且 必不可少的实时信息来源,具有广泛的用户及应用。消费者在社交媒体平台上发布与品 牌相关的信息时,通常会提供正面/负面的评论,而这些评论可能会通过整个社交网络迅 速并且广范围地传播。因此对这些评论的集体效应的认识和见解在了解品牌曝光度和消 费者认同度方面对企业和机构具有重要的社会和市场价值[8,12,20]。即使对于个人用 户,这些见解也能非常有用地帮助他们对感兴趣的品牌的产品做出购买决定。因此,针 对在社交媒体流中迅猛增加的生活资讯,需要开发用于数据采集和媒体内容分析的高效 品牌跟踪技术[7]。
因此,近年来,从社交媒体流中进行品牌跟踪已经开始吸引研究的关注[14,21],这 是不足为奇的。进行品牌跟踪的一个主要目的是从生活社交媒体流中采集品牌相关数 据。然而,由于社交媒体流的多个独特特性,品牌跟踪不是一个传统的搜索工作。首先, 社交媒体平台上的帖子本质上倾向于简短和会话式,因而其中使用的内容/词汇常常更新 的很快。特别地,传统基于关键词的数据抓取方法[2,4,13]受限于相关数据的覆盖程度。 因此,使用一个固定的关键词集已不能保证能采集到与实体(如品牌/产品)有关的一个 充分具有代表性的社交媒体数据集。第二,针对热门实体采集到的社交媒体数据的数量 可能是庞大的。例如,2013年采集到的超级碗大停电游戏每分钟有231,500篇推文,总 计有2400万篇。第三,微博内容本质上已经变得越来越多样化和多媒体化。最近的统 计数据显示大约30%的微博帖子包含图像(如,对来自新浪微博TM的4亿件推文的研 究显示,27%的推文包含图像),并且大多数图像不包含相关文本注释(如,对新浪微 博TM的4亿件推文的另一项研究显示,仅有约32%的推文有图像和具有兼容含义的关 联文本)。因此,仅使用一个固定的关键词集可能不足以采集相关数据。
应指出的是,现有的解决方案趋于主要关注于查询扩展技术。Chen等人[2]介绍了 一种推文采集方法,其中同时应用关键词、候选话题和热门话题进行数据采集。Massoudi 等人[13]介绍了一种用于采集相关数据的话题扩展技术,其中通过进行查询扩展来生成 目标的动态话题。Massoudi还介绍了利用微博帖子的质量指标,即,转帖、粉丝和时效 性,其中这些指标被结合在一起,来评价一篇微博帖子的关联概率。同样,Weerkamp 和DeRijke[23]提出了一种用于采集微博帖子的可信度框架。Sakaki等人[18]提出了一 种用于推特TM的实时事件信息采集,其中应用一个大的目标事件查询集来进行数据抓 取。在B.O’Connor等人[16]的帖子中,通过利用频繁的关键词和副主题,提出了一种 命名为“TweetMotif”的探测数据采集方法。Zhou等人[27]建议扩大个性化查询用于数据 采集。除了目标,用户的注释和资源也被考虑用于进行进一步的数据抓取。在演进特征 图中规划了一个标签主题模型,以探查从社交媒体流获得的文本数据。Leung等人[11] 建议利用人类判断来生成语义索引。然而,值得注意的是,以上所讨论的解决方案主要 依赖于基于文本的技术,但是考虑到现代社交媒体流的会话式和多模式性质,那些方法 在相关数据的覆盖方面受到限制。
因此,本发明的一个目的在于解决至少一个现有技术的问题和/或提供一个对本领域 有用的选择。
根据本发明的第一方面,提供了一种用于跟踪微博消息的方法,其中所述微博消息 与通过关联的文本和关联的图像可识别的实体相关。所述方法,包括:(i)基于关联的 文本对微博消息进行搜索,以获得第一结果集,(ii)基于关联的图像,在所述第一结 果集中进行图像检测,以获得种子消息集,(iii)基于来源于所述种子消息的特征集, 对微博消息进行搜索,以获得第二结果集,和(iv)基于与所述实体的相关性,从所述 第一结果集和第二结果集中选择条目,其中所述特征集与所述实体有关。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新加坡国立大学,未经新加坡国立大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201480054392.8/2.html,转载请声明来源钻瓜专利网。