[发明专利]一种用于基于地域和行业进行热点事件挖掘的方法和设备有效
申请号: | 201310693571.3 | 申请日: | 2013-12-17 |
公开(公告)号: | CN103714132B | 公开(公告)日: | 2017-12-26 |
发明(设计)人: | 刘雪平 | 申请(专利权)人: | 北京本果信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙)11447 | 代理人: | 南毅宁,王浩然 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种用于基于地域和行业进行热点事件挖掘的方法和设备。该方法包括从网络获取文档;对每篇文档进行分词处理,并确定每篇文档中各分词的权重;根据所述权重确定每篇文档的关键词;对每篇文档的内容进行地域和行业划分;对内容属于同一地域同一行业的各篇文档的关键词进行关联,形成关键词组,并确定每个关键词组的权重;以及按照所述关键词组的权重确定该地域该行业下的热点事件。由于是针对特定地域和特定行业进行挖掘,因此可根据用户请求,向用户提供其所关心的地域行业下的热点事件。并且,还可以减少挖掘时间,降低计算量,节省系统资源。 | ||
搜索关键词: | 一种 用于 基于 地域 行业 进行 热点 事件 挖掘 方法 设备 | ||
【主权项】:
一种用于基于地域和行业进行热点事件挖掘的方法,其特征在于,该方法包括:从网络获取文档;基于所获取的每篇文档的转发程度和/或回复程度来对所获取的文档进行过滤,所述转发程度和回复程度是通过对所述文档的实际转发量和回复量进行规格化而确定的;对每篇文档进行分词处理,并确定每篇文档中各分词的权重;所述每篇文档中各分词的权重与各分词在文档中出现的次数、文档的转发程度和回复程度、以及预设的文档来源的权重系数有关;根据所述权重确定每篇文档的关键词;对每篇文档的内容进行地域和行业划分;对内容属于同一地域同一行业的各篇文档的关键词进行关联,形成关键词组,并确定每个关键词组的权重;以及按照所述关键词组的权重确定该地域该行业下的热点事件;所述每篇文档中各分词的权重是通过以下方式确定的:Fi=Σj=1nFij×(Rij+Cij)×wij]]>TFij=FijMAX{Fkj|k=(1,2,...,T)}]]>Wij=TFij×Fi其中,Fij表示第i个分词在第j篇文档出现的次数;Rij表示针对包括第i个分词的第j篇文档的转发程度;Cij表示针对包括第i个分词的第j篇文档的回复程度;wij表示包括第i个分词的第j篇文档的来源的权重系数;Fi表示第i个分词在所有文档中的词频数;Fkj表示第j篇文档中的第k个分词在该第j篇文档中出现的次数;TFij表示第i个分词在第j篇文档中的词频数;Wij表示第i个分词在第j篇文档中所占的权重;T表示第j篇文档中的分词总数;以及n表示文档总数;其中,所述关键词组的权重是通过以下方式确定的:确定形成关键词组的每个关键词在内容属于同一地域同一行业的每篇文档中的词频‑逆文档频率值(TF‑IDF);根据所确定出的TF‑IDF值来确定该关键词组在内容属于同一地域同一行业的每篇文档中的权重;以及根据所确定出的该关键词组在内容属于同一地域同一行业的每篇文档中的权重来确定该关键词组在内容属于同一地域同一行业的所有文档中的权重,并将该权重作为该关键词组的权重;其中,所采用的规格化方法是通过下面等式来将文档的实际转发量和回复量均映射到[0,1]区间:ai′=ai-min(ai)max(ai)-min(ai)]]>其中,a′i表示每篇文档的转发程度或回复程度;ai表示每篇文档的实际转发量或回复量;min(ai)表示所有文档中最小的实际转发量或回复量;以及max(ai)表示所有文档中最大的实际转发量或回复量。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京本果信息技术有限公司,未经北京本果信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310693571.3/,转载请声明来源钻瓜专利网。
- 上一篇:一种基于数字对讲机的无线广播系统
- 下一篇:电力线信息监测装置