[发明专利]提取文本以转换成音频有效
申请号: | 201210013614.4 | 申请日: | 2012-01-17 |
公开(公告)号: | CN102622333A | 公开(公告)日: | 2012-08-01 |
发明(设计)人: | 王莼栋;P·洛博;R·周 | 申请(专利权)人: | 微软公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F3/16 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 罗婷婷 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 提取 文本 转换 音频 | ||
技术领域
本发明涉及提取文本的技术,尤其涉及提取文本以转换成音频的技术。
背景技术
web浏览器和其他标记文档呈现应用一般被配置成以可视形式来呈现标记文档。尽管视觉上呈现的web内容适于在静态位置中消费,但标记文档的这种呈现可能不适于在移动时消费。已经提出了将标记文档转换成音频输出的各种方法。然而,由于许多网页的复杂布局和不同内容,隔离供转换成音频的文本是具有挑战性的。结果,网页的非期望部分(诸如,广告、内容发现链接、导航控件等)可被无意地转换成音频。
发明内容
在此公开了涉及将标记内容转换成音频输出的各个实施例。例如,所公开的一个实施例提供了一种在计算设备中从标记文档提取文本以供音频输出的方法。该方法包括:将标记文档分成多个内容面板;以及通过基于每一个面板相对于标记文档的总体组织的几何准则和/或基于位置的准则来对所述多个内容面板进行过滤以形成内容面板的子集。该方法还包括:确定内容面板的子集中的每一个内容面板的文档对象模型(DOM)分析值;通过基于内容面板的该子集中的每一个内容面板的DOM分析值来对内容面板的该子集进行过滤以标识出被确定为包含文本正文内容的内容面板的集合;以及,将在被确定为包含文本正文内容的所选内容面板中的文本转换成音频输出。
提供本发明内容以便以简化形式介绍将在以下具体实施方式中进一步描述的一些概念。本发明内容并不旨在标识所要求保护主题的关键特征或必要特征,也不旨在用于限制所要求保护主题的范围。此外,所请求保护的主题不限于解决在本公开的任一部分中提及的任何或所有缺点的实现。
附图说明
图1示出了标记文档使用环境的一实施例。
图2示出了描绘用于从标记文档提取文本以供转换成音频输出的方法的一实施例的流程图。
图3示出了标记文档的示例布局的实施例。
图4示出了标记文档的示例文档对象模型(DOM)树的一部分的实施例。
具体实施方式
如上所提到的,可在网页或其他标记文档内找到的各种不同的内容项可在将标记文档文本转换成令人满意的音频输出时造成困难。例如,除了组成文章正文的文本以外,网页还可包括诸如标题、该文章的作者的传记、对该文章的评论以及所嵌入的视频和音频之类的相关内容,并包括诸如广告、导航控件和指示、内容发现链接之类的无关内容。如果将这一页面直接转换成音频而没有任何内容过滤,则收听体验是不令人满意的。
因此,在此呈现了涉及对标记文档中的内容进行过滤以隔离出该文档的文本正文(如果存在任何的话)以供转换成音频输出的实施例。所公开的各实施例可帮助移除如广告、标题、作者信息、评论等内容,使得用户可收听该文档的文本正文而不会听到该页面中的其他较不期望的内容。
在更详细地讨论这些实施例之前,先参考图1描述示例使用环境100。使用环境100包括被配置成经由网络106向请求设备提供内容的服务器系统102,这些内容诸如是存储在该服务器系统102上或可以以其他方式被该服务器系统102访问的标记文档104。各种类型的设备可请求和接收来自服务器系统102的标记文档。示例包括但不限于:移动设备108、计算机110(例如,膝上型计算机、台式计算机、笔记本计算机、笔记本型计算机、平板计算机和/或其他合适类型的计算机)、和电视机系统112(其可包括诸如数字录像机、机顶盒、视频游戏控制台等硬件)。这些设备在此可被统称为计算设备。
应该理解,上述计算设备是出于示例的目的来呈现的,而并非旨在以任何形式进行限制,因为在此所述的各实施例可以被实现在任何合适的计算设备上。示例包括但不限于:大型计算机、服务器计算机、台式计算机、膝上型计算机、平板计算机、家庭娱乐计算机、网络计算设备、移动计算设备、移动通信设备、游戏设备等。
如针对移动设备108示出的,这些计算设备中的每一个都可包括逻辑子系统120和数据保持子系统122,其中逻辑子系统120被配置成执行存储在数据保持子系统122内的指令,以便实现在此公开的各实施例以及其他任务。这些计算设备中的每一个还包括音频输出124,它被配置成以电学的形式或声学的形式输出音频信号。例如,音频输出124可包括诸如扬声器之类的音频转换器,和/或可包括诸如扬声器插孔、网络接口等电子输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210013614.4/2.html,转载请声明来源钻瓜专利网。