[发明专利]一种面向微博的定制化筛选系统及方法无效
申请号: | 201210065678.9 | 申请日: | 2012-03-13 |
公开(公告)号: | CN102622443A | 公开(公告)日: | 2012-08-01 |
发明(设计)人: | 闫丹凤;田瑞;刘佳 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京轻创知识产权代理有限公司 11212 | 代理人: | 杨立 |
地址: | 100098 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 定制 筛选 系统 方法 | ||
1.一种面向微博的定制化筛选系统,其特征在于,包括后台模块和交互模块,所述后台模块用于采集数据、分析数据、本地存储、建立索引并提供检索功能;
所述交互模块与后台模块信息交互,并提供与后台模块交互的WEB界面;
所述后台模块依次包括信息交互的采集模块、分析模块、索引模块和检索模块;所述采集模块,采集原始微博数据;
所述分析模块对采集模块传输的数据进行抽取、去重及过滤得到有效数据,并对有效数据分类、存储,所述过滤包括对垃圾、广告及黄反数据的过滤;
所述索引模块对分析模块传输至的数据进行中英文分词,根据分词的结果建立倒排索引及增量索引,并根据微博状态文件定期的删除索引;
所述检索模块接收交互模块传输的检索关键字,并对检索关键字进行纠错、同义词转换、分词及优化,并对检索结果进行筛选和排序,进一步将排序结果返回交互模块。
2.根据权利要求1所述的定制化筛选系统,其特征在于,所述检索模块包括Query检索关键字处理模块和Query检索关键字优化模块,所述Query处理模块接收交互模块传输至的Query检索关键字,对Query检索关键字进行处理,并将处理后的Query发送至Query优化模块;
所述Query优化模块对Query处理模块发送至的Query进行省略变换和分类,并将Query及其分类发送给索引模块,接收索引模块返回的结果;
所述Query优化模块包括Query省略模块和Query分类模块,所述Query省略模块接收Query处理模块发送至的数据,并将所述数据进行正则匹配,将不匹配的Query进行省略;所述Query分类模块将来自Query省略模块的数据根据它的主题进行分类,并将分类后的数据传输至索引模块;
所述Query省略模块通过挖掘规则对传输至的数据进行处理,查找出不重要的分词,并建立正则规则,对于后输入的数据与所述正则规则进行匹配。
3.根据权利要求1所述的定制化筛选系统,其特征在于,所述交互模块包括权限控制模块、查询模块、筛选模块、入库数据管理模块和特定管理模块,所述权限控制模块控制不同用户对系统的不同操作权限;
所述查询模块通过排行查询、标签查询和高级检索的方式实现对微博信息的查看;
所述筛选模块筛选数据并添加自定义主题,并将其存储到数据库中;
所述入库数据管理模块对筛选模块中已存入数据库的数据进行展示;
所述特定管理模块用于对名人和机构名称、名人和机构分类及url网页地址进行管理。
4.根据权利要求3所述的定制化筛选系统,其特征在于,所述采集模块包括网络爬取模块和微博API应用编程接口模块,所述网络爬取模块对指定的URL网页地址进行抓取,并对选取的URL发送请求得到网站原始的HTML超文本标记语言页面并发送至分析模块;所述微博API模块采用现有微博平台提供的微博API获取JSON轻量级数据交换格式的数据并发送至分析模块;
所述分析模块包括数据抽取模块、数据过滤模块、文本分类模块、数据存储模块,所述数据抽取模块接收采集模块中网络爬取模块收集到的HTML页面并格式化为JSON格式的数据,并将所述格式化为JSON格式的数据传输至数据过滤模块,所述数据抽取模块对网络爬取模块获取的原始HTML网页进行标准XML可扩展标记语言格式的转化,查找数据节点,对数据加上相应标签,将其映射成JSON格式的数据;所述数据过滤模块接收采集模块中微博API模块输出的JSON格式的数据和数据抽取模块传输的JSON格式的数据,并将所述数据通过去重和过滤得到有效数据,并将所述有效数据传输至文本分类模块和数据存储模块;所述文本分类模块对过滤模块传输至的有效数据进行分类并将分类结果发送至数据存储模块;所述数据存储模块将数据过滤模块和文本分类模块传输至的数据和分类结果写入文件,并分别存储所述文件数据,同时提取有效数据的属性信息写入文件;
所述数据存储模块包括数据库和文本文件,所述数据库用于存储完整的数据信息并根据用户指令将数据发送至交互模块;所述文本文件用于存储数据的id、内容和分类,并根据索引模块的调用将数据传输至交互模块;
所述索引模块包括文本分词模块和索引建立模块,所述文本分词模块通过庖丁解牛分词器结合词典对数据存储模块中存储的文件内容进行分词,得到建立索引的原始数据;所述索引建立模块对文本分词模块传输至的数据建立倒排索引及增量索引得到索引数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210065678.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:成像应用中用于工具透镜生产的惰性高硬度材料
- 下一篇:注射封胶系统及其方法