[发明专利]应用语义向量和关键字分析关联数据集的方法和装置无效

专利信息
申请号: 200880001312.7 申请日: 2008-07-29
公开(公告)号: CN101802776A 公开(公告)日: 2010-08-11
发明(设计)人: 文圆;克里特普瑞特斯·马;杰拉德弗朗斯·荷利三世;安德鲁劳伦斯·法瑞斯;咖贝尔·斯汀伯格 申请(专利权)人: 特克斯特怀茨有限责任公司
主分类号: G06F7/00 分类号: G06F7/00
代理公司: 北京中博世达专利商标代理有限公司 11274 代理人: 申健
地址: 美国*** 国省代码: 美国;US
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 应用 语义 向量 关键字 分析 关联 数据 方法 装置
【说明书】:

技术领域

发明涉及用来识别根据上下文相关联的数据集的方法和系统,例如,文档、网页、电子邮件、搜索问题、广告等,并且尤其涉及通过分析所述数据集的唯一语义向量和包含所述数据集中代表性关键字的信息的关键字语义表示,来识别根据上下文与主题数据集相关联的数据集的方法和系统。

背景技术

诸如由微软公司、谷歌公司、振动媒体(Vibrant Media)或雅虎公司开发的搜索引擎或广告布置系统被广泛地用来识别与用户输入的搜索问题潜在相关联的文档或文件,或者被用来选择和显示广告,该广告根据上下文关联到用户已经或正在浏览或操作的一个或多个数据集,例如文档、电子邮件消息、RSS消息源、或网页。

然而,即使在开发和修改多年之后,现有的搜索引擎或广告布置系统仍然远不能令人满意。搜索的结果或识别的广告经常与用户输入的搜索问题或用户正在或已经浏览的文档或网页缺乏足够的关联。

发明内容

本发明描述各种实施例,它们通过分析代表数据集的唯一语义向量和包含有数据集中代表性关键字的信息的语义表示,有效地识别一个或多个数据集,例如文档、网页、电子邮件等,这些数据集可能根据上下文关联到主题数据集,例如搜索问题、用户正在浏览的网页。

根据本发明的一个示例性的方法,控制数据处理系统使得从一组数据集中的至少一个数据集关联到主题数据集。每个数据集或所述主题数据集包括至少一个关键字。该方法获取代表所述主题数据集的语义向量和代表所述组中每个单独数据集的各个语义向量。代表所述组中每个单独数据集的每个语义向量包括所述单独数据集中的所述至少一个关键字的每一个与预先确定目录之间关系的集合信息,在所述单独数据集中的所述至少一个关键字的每一个都可能关联到所述目录。代表主题数据集的所述语义向量包括所述主题数据集中的所述至少一个关键字的每一个与预先确定目录之间关系的共同信息,在所述主题数据集中的所述至少一个关键字的每一个都可能关联到所述目录,并且代表所述主题数据集或所述组中的每个单独数据集的所述语义向量具有与所述预先确定目录的数目相等的维。对于所述组的每个数据集,通过比较与所述主题数据集关联的所述语义向量和与所述组中的每个数据集关联的所述语义向量,来确定所述主题数据集与所述组中的每个数据集之间的第一相似性。该示例性方法进一步获取所述主题数据集的关键字语义表示和所述组中的每个单独数据集的关键字语义表示。所述主题数据集的所述关键字语义表示或所述组中的每个单独数据集的所述关键字语义表示包括指示所述主题数据集或所述组中的每个单独数据集的有代表性关键字的信息,并且所述主题数据集的所述关键字语义表示或所述组中的每个单独数据集的所述关键字语义表示以不同于所述主题数据集的所述语义向量或所述组中的每个单独数据集的所述语义向量的方式构成。对于所述组的每个单独数据集,通过比较所述主题数据集的所述关键字语义表示和所述组中的每个数据集的所述关键字语义表示来确定在所述主题数据集与所述组中的每个数据集之间的第二相似性。根据所述主题数据集与所述组中的每个数据集之间的所述第一相似性和所述主题数据集与所述组中的每个数据集之间的所述第二相似性选择所述组中数据集的至少一个数据集。该方法将所述组中的该至少一个被选数据集关联到所述主题数据集。所述数据集中的所述至少一个数据集可以和所述主题数据集同时呈现给用户或者在向用户呈现所述主题数据集之后呈现。所述数据集中的所述至少一个数据集或所述主题数据集可以以语音形式、可视形式、视频形式、触觉形式或其任何组合形式呈现给用户。

在一个实施例中,所述组中所述数据集的至少一个数据集是广告,并且所述主题数据集是文档、网页、电子邮件、RSS新闻消息源、数据流、广播数据或与用户相关信息;或一个或多个文档、网页、电子邮件、RSS新闻消息源、数据流、广播数据或与用户相关信息的一部分或其组合。还根据另一个实施例,该示例性方法传送所述至少一个被选数据集或与所述被选数据集关联的文件以及所述主题数据集或与所述主题数据集关联的文件给用户。所述至少一个被选数据集可以通过显示所述至少一个被选数据集、播放根据所述至少一个被选数据集的语音信号或提供所述至少一个被选数据集的链接而被传送给用户。

在一个实施例中,所述至少一个关键字包括字、短语、字符串、预分配关键字、子数据集、元信息(meta信息)和基于包含在所述单独数据集中的链接取回的信息中的至少一个。在另一个实施例中,每个数据集的所述语义向量被预先计算并且被包含在所述单独数据集中。所述语义向量可以在运行中动态生成。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于特克斯特怀茨有限责任公司,未经特克斯特怀茨有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200880001312.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top