[发明专利]应用语义向量和关键字分析关联数据集的方法和装置无效
| 申请号: | 200880001312.7 | 申请日: | 2008-07-29 |
| 公开(公告)号: | CN101802776A | 公开(公告)日: | 2010-08-11 |
| 发明(设计)人: | 文圆;克里特普瑞特斯·马;杰拉德弗朗斯·荷利三世;安德鲁劳伦斯·法瑞斯;咖贝尔·斯汀伯格 | 申请(专利权)人: | 特克斯特怀茨有限责任公司 |
| 主分类号: | G06F7/00 | 分类号: | G06F7/00 |
| 代理公司: | 北京中博世达专利商标代理有限公司 11274 | 代理人: | 申健 |
| 地址: | 美国*** | 国省代码: | 美国;US |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 应用 语义 向量 关键字 分析 关联 数据 方法 装置 | ||
1.一种机器执行方法,用于控制数据处理系统以便将一组数据集的至少一个数据集关联到主题数据集,其中每个数据集或所述主题数据集包括至少一个关键字,该方法包括以下机器执行的步骤:
获取代表所述主题数据集的语义向量和代表所述组中每个单独数据集的各个语义向量,其中:
代表所述组中的每个单独数据集的每个语义向量包括在所述单独数据集的所述至少一个关键字的每一个与预先确定目录之间的关系的集合信息,所述单独数据集的所述至少一个关键字的每一个都可能关联到所述目录;
代表所述主题数据集的所述语义向量包括集合信息,该集合信息具有所述主题数据集的所述至少一个关键字的每一个与预先确定目录之间的关系,所述主题数据集的所述至少一个关键字的每一个都可能关联到的所述目录,以及
代表所述主题数据集或所述组中每个单独数据集的所述语义向量具有与预先确定目录的数目相等的维;
对于所述组中的每个数据集,通过将与所述主题数据集关联的所述语义向量和与所述组中的每个数据集关联的所述语义向量进行比较,来确定所述主题数据集与所述组中的每个数据集之间的第一相似性;
获取所述主题数据集的关键字语义表示和所述组中的每个单独数据集的关键字语义表示,其中:
所述主题数据集的关键字语义表示或所述组中的每个单独数据集的关键字语义表示包括指示所述主题数据集或所述组中单独数据集的有代表性关键字的信息,以及
所述主题数据集的所述关键字语义表示或所述组中的每个单独数据集的所述关键字语义表示以一种不同于所述主题数据集的所述语义向量或所述组中的每个单独数据集的所述语义向量的方式构成;
对于所述组中的每个数据集,通过将所述主题数据集的关键字语义表示和所述组中的每个数据集的关键字语义表示进行比较,来确定所述主题数据集与所述组中的每个数据集之间的第二相似性;以及
根据所述主题数据集与所述组中的每个数据集之间的所述第一相似性和所述主题数据集与所述组中的每个数据集之间的所述第二相似性,选择所述组中的所述数据集的至少一个数据集;以及
将所述至少一个被选择的数据集关联到所述主题数据集。
2.根据权利要求1所述的方法,其中在所述组中的所述数据集的至少一个数据集是广告,并且所述主题数据集是文档、网页、电子邮件、RSS新闻消息源、数据流、广播数据或与用户相关的信息;或一个或多个文档、网页、电子邮件、RSS新闻消息源、数据流、广播数据或与用户相关的信息的一部分或其组合。
3.根据权利要求1所述的方法,其中所述主题数据集是文档、网页、电子邮件、RSS新闻消息源、数据流、广播数据或与用户相关的信息的一部分。
4.根据权利要求1所述的方法进一步包括如下步骤:传送所述至少一个被选数据集或与所述被选数据集关联的文件以及所述主题数据集或与所述主题数据集关联的文件给用户。
5.根据权利要求4所述的方法,其中所述至少一个被选数据集通过显示所述至少一个被选数据集、播放根据所述至少一个被选数据集的语音信号或提供所述至少一个被选数据集的链接而被传送给用户。
6.根据权利要求1所述的方法,其中所述至少一个关键字包括字、短语、字符串、预分配关键字、子数据集、元信息和基于包含在所述单独数据集中的链接取回的信息中的至少一个。
7.根据权利要求1所述的方法,其中每个数据集的所述语义向量被预先计算并且被包含在所述单独数据集中。
8.根据权利要求1所述的方法,所述语义向量是动态生成的。
9.根据权利要求1所述的方法,其中,代表所述组中的每个单独数据集的所述语义向量是基于所述组中的每个单独数据集的至少一个关键字和已知关键字与预先确定目录之间的已知关系构成的,所述已知关键字可能关联到的所述目录,以及,代表主题数据集的所述语义向量是基于所述主题数据集的至少一个关键字和已知关键字与预先确定目录之间的所述已知关系构成的,所述已知关键字可能关联到的所述目录。
10.根据权利要求1所述的方法,其中,与所述单独数据集关联的所述语义向量是进一步基于与至少一个用户相关的信息或链接到所述单独数据集的至少一个数据集生成的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于特克斯特怀茨有限责任公司,未经特克斯特怀茨有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200880001312.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:举升平衡装置及安装有该举升平衡装置的前顶自卸车
- 下一篇:新式车座





