[发明专利]将超文字标签语言文件转换成纯文字文件的方法有效

专利信息
申请号: 200810185164.0 申请日: 2008-12-11
公开(公告)号: CN101751403A 公开(公告)日: 2010-06-23
发明(设计)人: 蔡弘扬;洪启豪 申请(专利权)人: 易搜比控股公司
主分类号: G06F17/30 分类号: G06F17/30;G06F17/22
代理公司: 北京律诚同业知识产权代理有限公司 11006 代理人: 梁挥;祁建国
地址: 开曼群岛大*** 国省代码: 开曼群岛;KY
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文字 标签 语言 文件 转换 方法
【说明书】:

技术领域

本发明涉及一种网页内容的萃取方法,特别是有关一种可以从超文字标签 语言(Hyper Text Markup Language,HTML)文件中找出和HTML文件主题最接 近的重要内容,并将此重要内容输出为纯文字文件的方法。

背景技术

HTML文件是一种可以被网络浏览器(browser)读取,再以网页方式显示其 内容的一种文件。和一般纯文字文件(txt file)不同的是,HTML文件的内容 不仅包含纯文字的部份,还包含了许多的标记(tag)和其它格式的信息如影像 或是影片,而标记的作用在指示网络浏览器,以指定的形式,将内容显示在网 页之中,使网页的内容更丰富且具备多样性。但是目前有许多携带型的电子产 品由于硬件的限制,例如较小的显示器而无法显示完整的网页内容,也有一些 应用程序只需要撷取或是显示网页中特定的文字内容,而不希望包含其它不重 要的噪声,所以为了支持这些应用程序(application)或是装置,已有厂商发 展出一些可以将HTML文件中的纯文字内容萃取出来的技术。

在已核准的台湾发明专利434492提出了《一种超媒体文件转换为语音的 方法》,其中提到了一种超媒体标示语言剖析器可以分析超媒体文件档案(即 HTML文件)的内容,将其分离成文字内容、标示文件结构的超媒体标签及控制 发音方式的发音控制指令,但是在此专利技术中并未进一步对分离出来的文字 内容进行处理,以除去可能存在不重要的或是与文件主题无关的噪声。

在已核准的台湾发明专利200813763提出了《多线程分析网页数据的系统 及方法》,公开了一种基于分析规则,利用一判断模块对XML格式网页的内容 中是否有相应的分析规则,再依判断结果决定是否再利用一分析模块对网页内 容进行评估,及根据所述分析规则中的限定判断所述分析后的网页内容是否符 合评估要求,期望能快速、有效地萃取所需浏览网页中的信息;但是在此一技 术中并未详细公开所述的分析规则。

另外一种已知将HTML文件转换成纯文字内容的技术,首先是对HTML文件 做标签的处理,删除不重要的标签、和其中一些标签内夹带的内容,接着从剩 余的内容中把剩余标签内夹带的文字或句子提取出来,以这些句子当中最长的 句子为基础句子(base句子),从base句子向前及向后以寻找在一预定范围内 (例如10个相邻句子范围)且长度够长的句子,这个过程称为距离扩散寻找步 骤,一旦找到这种句子就再从找到的句子,再往外寻找预定范围以内是否还有 长度够长的句子,直到找不到为止,最后将最前面的一句到最后面的一句范围 内所有的句子提出来,即为最后的纯文字内容,再将这个纯文字内容输出为纯 文字文件。

上述将HTML文件转换成纯文字内容的技术,存在着一些问题如下:

1.重要内文区块中间夹杂的不重要句子或文字,也会一并被萃取出来。

2.有的文章前后句子很短,若是未达到预设的长度就会被略过而无法被萃 取出来,也不会在扩散寻找的过程中被找出来。

3.有时最长的句子或文字未必是重要的内容,虽然最长的句子通常是重要 内容的机率很高,但也会有例外的情况,例如某一网页内的新闻内容非常短, 但是这个新闻内容才是重要的句子或文字,如广告或其它新闻超级链接可能是 最长的句子或文字,并不是我们所认为重要的句子或文字,若是采用前述的现 有技术,就会出现挑选内容完全错误的情况发生。

因此,如何在HTML文件,特别是从网页内容中找出和文件标题相关的纯 文字内容,才是我们所关心的课题,仅仅是把HTML文件中的纯文字内容萃取 出来是不够的,如果萃取出来的纯文字内容又与HTML文件的标题无关,也非 我们所期待的结果。

发明内容

本发明的目的在提出一种可以从超文字标签语言文件(HTML文件)中提取 重要的内容的方法,换言之就是可以简化HTML文件的内容,只将其中重要的 内容提取出来成为纯文字文件的一种方法。

本发明的目的之一在提出一种可从HTML文件中提取和HTML文件标题最接 近的内容,并输出成为纯文字文件的方法。

为达上述目的,本发明的方法的较佳实施例包括下列步骤:

1、取得HTML文件;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于易搜比控股公司,未经易搜比控股公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200810185164.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top