[发明专利]用于自动概括电子文档的内容的方法和装置有效

专利信息
申请号: 201280049625.6 申请日: 2012-09-11
公开(公告)号: CN103874994B 公开(公告)日: 2017-09-08
发明(设计)人: 因德吉特·玛尼;欧金尼奥·西乌拉娜;尼古拉斯·D·阿洛伊西奥·蒙蒂勒;巴特·K·斯旺森 申请(专利权)人: 雅虎控股公司
主分类号: G06F17/21 分类号: G06F17/21
代理公司: 北京东方亿思知识产权代理有限责任公司11258 代理人: 李晓冬
地址: 美国加利*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 自动 概括 电子 文档 内容 方法 装置
【说明书】:

相关申请的交叉引用

本申请要求2011年12月7日提交的英国专利申请No.1121033.3和2011年12月8日提交的美国临时专利申请序列号No.61/568,188的权益,所述两个申请的全部内容都通过引用结合在此。

技术领域

本发明一般涉及电子文档的领域,并且更具体来说涉及电子文档的概括。

背景技术

使用万维网上的搜索引擎执行的典型搜索生成多个搜索结果(例如,包括新故事、网页、社会媒体内容等的电子文档)。然而,至少一部分搜索结果通常与该搜索无关。此外,即使是相关搜索结果的内容在文档之间也可以不同。

另外,社会媒体允许用户向其他用户推荐各种电子文档。然而,当面临仅统一资源定位符(URL)或标题时,可能难以告知所联接的电子文档是否有可能是所关注的。

因此,找到内容真正相关或感兴趣的文档涉及一些麻烦和误差,因为用户可能必须将多个文档通过对其内容的极少现有知识来逐一分类。这是耗时的操作,尤其是在所有文档都长的情况下(例如,如在书或一些新闻文章的情况下)。如果在移动设备(例如,智能电话)上执行,则逐一审阅各种文档可能花费更多时间,因为文档可能需要更多时间来在设备上读取和载入。

发明内容

一种用于概括电子文档的方法的一个实施例包括:将电子文档分割为多个项,其中多个项中的每一个与相应长度、相应信息量得分和相应一致性得分相关联;自动地选择多个项的子集,以使得该子集的聚合信息量得分最大化而该子集的聚合长度小于或等于最大长度;以及将该子集安排为电子文档的概要。

在其他实施例中,子集包括少于所有多个项;所述项中的至少一个包括语句;根据与语言无关的评分技术来分配用于多个项中的给定项的相应信息量得分;该评分技术根据一组手工编写的规则来向给定项的多个特征分配权重;根据与语言相关的评分技术来分配用于多个项中的给定项的相应信息量得分;该评分技术是使用统计分类器的监督机器学习技术;统计分类器是支持向量机;该评分技术是将给定项表示为有向图中的加权节点的非监督机器学习技术;用于多个项中的每一个的相应信息量得分至少等于阈值;用于多个项中的每一个的相应一致性得分至少等于阈值;该方法进一步包括在分割之后但是在自动选择之前修剪多个项中的每一个;其中使用组合优化器来执行自动选择;自动选择包括单独地评估多个项中的每一个以包括在子集中;评估包括拒绝将多个项中相应长度超过该子集的当前聚合长度的那些项包括在子集中;评估包括对于多个项中的给定项:计算第一和,其中第一和是与多个项中排除该给定项并且具有小于或等于最大长度的聚合长度的最大信息量子集相关联的相应信息量得分的和;计算第二和,其中第二和是第一值与第二值的和,其中第一值等于第一和减去给定项的相应长度,并且第二值是给定项的相应信息量得分;以及基于第一和与第二和的比较来确定是否将给定项包括在子集中;确定包括当第二和大于第一和时将给定项包括在子集中并且当第一和大于第二和时将给定项从子集中排除;根据多个项中的每一个在电子文档中出现的顺序来安排多个项;该方法进一步包括在分割、自动选择和安排之前确定电子文档是可概括的;确定包括:生成关于该电子文档的特征向量,其中特征向量包括电子文档的多个特征;对多个特征中的每一个分配权重;以及根据分配给多个特征中的每一个的权重来向电子文档分配得分,其中得分指示电子文档是否可概括;权重是自动学习的;分配权重包括对于多个特征中的给定特征:当给定特征在包括可概括文档的一组训练示例中以至少限定的频率出现时提高权重并且当给定特征在包括可概括文档的一组训练示例中以至少限定的频率出现时提高权重;并且分配权重和分配得分是以专用于写入电子文档所使用的语言的方式来执行。

一种包含用于概括电子文档的可执行程序的有形计算机可读介质的一个实施例包括执行包括以下步骤的操作的程序:将电子文档分割为多个项,其中多个项中的每一个与相应长度、相应信息量得分和相应一致性得分相关;自动地选择多个项的子集,以使得该子集的聚合信息量得分最大化而该子集的聚合长度小于或等于最大长度;以及将该子集安排为电子文档的概要。

一种用于概括电子文档的系统的一个实施例包括处理器和包含使该处理器执行包括以下步骤的操作的可执行程序的计算机可读介质:将电子文档分割为多个项,其中多个项中的每一个与相应长度、相应信息量得分和相应一致性得分相关;自动地选择多个项的子集,以使得该子集的聚合信息量得分最大化而该子集的聚合长度小于或等于最大长度;以及将该子集安排为电子文档的概要。

附图说明

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于雅虎控股公司,未经雅虎控股公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201280049625.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top