[发明专利]主题区讨论的自动发现聚集和组织有效
| 申请号: | 201110008374.4 | 申请日: | 2011-01-05 |
| 公开(公告)号: | CN102117321A | 公开(公告)日: | 2011-07-06 |
| 发明(设计)人: | P·R·贝利;D·R·施瓦茨 | 申请(专利权)人: | 微软公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 杨洁;钱静芳 |
| 地址: | 美国华*** | 国省代码: | 美国;US |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 主题 讨论 自动 发现 聚集 组织 | ||
1.一个或多个存储计算机可使用指令的计算机存储介质,当该指令由一个或多个计算设备执行时使得所述一个或多个计算设备执行一种方法,所述方法包括:
接收包括一个或多个输入搜索查询的初始一组搜索查询,所述一个或多个输入搜索查询被手动地确定为与给定主题区相关;
通过分析搜索引擎会话数据以标识与所述一个或多个输入搜索查询相关的多个附加搜索查询,来生成已扩展的一组搜索查询,所述扩展的一组搜索查询包括所述一个或多个输入搜索查询和所述多个附加搜索查询;
使用所述已扩展的一组搜索查询以标识与所述给定主题区相关的多个URL;
周期性地爬行与所述多个URL相关联的文档,以提供来自所述URL的多个内容项;
使用分类器来从所述多个内容项标识相关的内容项,所述相关的内容项由所述分类器确定为与所述给定主题区相关;
将所述相关的内容项群集成多个聚类,每一聚类包括与所述给定主题区内的特定事件或主题相关联的一组内容项,其中群集是至少部分地基于所述相关的内容项之间的超链接来执行的;
将所述多个聚类相对于彼此进行排名,其中所述多个聚类是至少部分地基于从社交网络站点到与所述相关的内容项的URL的超链接的存在来排名的;以及
生成允许用户查看并与所述多个聚类进行交互的用户界面。
2.如权利要求1所述的一个或多个计算机存储介质,其特征在于,使用所述已扩展的一组搜索查询来标识与所述给定主题区相关的多个URL包括:基于所述已扩展的一组搜索查询来分析搜索引擎会话数据和用户web浏览数据以标识所述多个URL。
3.如权利要求1所述的一个或多个计算机存储介质,其特征在于,还通过分析来自社交网络的链接来进一步标识与所述给定主题区相关的多个URL。
4.如权利要求1所述的一个或多个计算机存储介质,其特征在于,所述分类器是通过爬行所述URL的至少一部分以获取内容并基于该内容生成所述给定主题区的语言模型来创建的。
5.如权利要求4所述的一个或多个计算机存储介质,其特征在于,所述分类器包括以下至少一个:使用N元语法特征的线性分类器;使用N元语法特征的决策树分类器;以及使用N元语法特征的隐马尔科夫模型。
6.如权利要求1所述的一个或多个计算机存储介质,其特征在于,将所述相关的内容项群集成所述多个聚类还至少部分地基于自组织群集,其中分析所述相关的内容项的文本以标识所述相关的内容项之间的关系。
7.如权利要求6所述的一个或多个计算机存储介质,其特征在于,将所述相关的内容项群集成所述多个聚类还至少部分地基于所述相关的内容项的发布时间。
8.如权利要求1所述的一个或多个计算机存储介质,其特征在于,将所述多个聚类相对于彼此进行排名至少部分地基于从以下各项选出的一个或多个项:所述相关内容项的发布时间;每一聚类的大小;每一相关的内容项的源的排名;搜索引擎会话数据;以及用户web浏览信息。
9.如权利要求1所述的一个或多个计算机存储介质,其特征在于,所述用户界面,为每一聚类,提供主内容项和多个相关的内容项。
10.如权利要求1所述的一个或多个计算机存储介质,其特征在于,至少一个聚类的主内容项是通过分析该至少一个聚类中的每一内容项的发布时间以及该至少一个聚类内的内容项之间的超链接关系来标识的。
11.如权利要求1所述的一个或多个计算机存储介质,其特征在于,所述方法还包括将来自超链接到至少一个聚类中的至少一个URL的社交网络站点的引用添加到该至少一个聚类。
12.如权利要求1所述的一个或多个计算机存储介质,其特征在于,对多个主题区重复所述方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110008374.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:汽车碰撞能量磁场吸收器
- 下一篇:一种远程统计小物体的方法及其装置





