[发明专利]将超文字标签语言文件转换成纯文字文件的方法有效
| 申请号: | 200810185164.0 | 申请日: | 2008-12-11 |
| 公开(公告)号: | CN101751403A | 公开(公告)日: | 2010-06-23 |
| 发明(设计)人: | 蔡弘扬;洪启豪 | 申请(专利权)人: | 易搜比控股公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/22 |
| 代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 梁挥;祁建国 |
| 地址: | 开曼群岛大*** | 国省代码: | 开曼群岛;KY |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文字 标签 语言 文件 转换 方法 | ||
技术领域
本发明涉及一种网页内容的萃取方法,特别是有关一种可以从超文字标签 语言(Hyper Text Markup Language,HTML)文件中找出和HTML文件主题最接 近的重要内容,并将此重要内容输出为纯文字文件的方法。
背景技术
HTML文件是一种可以被网络浏览器(browser)读取,再以网页方式显示其 内容的一种文件。和一般纯文字文件(txt file)不同的是,HTML文件的内容 不仅包含纯文字的部份,还包含了许多的标记(tag)和其它格式的信息如影像 或是影片,而标记的作用在指示网络浏览器,以指定的形式,将内容显示在网 页之中,使网页的内容更丰富且具备多样性。但是目前有许多携带型的电子产 品由于硬件的限制,例如较小的显示器而无法显示完整的网页内容,也有一些 应用程序只需要撷取或是显示网页中特定的文字内容,而不希望包含其它不重 要的噪声,所以为了支持这些应用程序(application)或是装置,已有厂商发 展出一些可以将HTML文件中的纯文字内容萃取出来的技术。
在已核准的台湾发明专利434492提出了《一种超媒体文件转换为语音的 方法》,其中提到了一种超媒体标示语言剖析器可以分析超媒体文件档案(即 HTML文件)的内容,将其分离成文字内容、标示文件结构的超媒体标签及控制 发音方式的发音控制指令,但是在此专利技术中并未进一步对分离出来的文字 内容进行处理,以除去可能存在不重要的或是与文件主题无关的噪声。
在已核准的台湾发明专利200813763提出了《多线程分析网页数据的系统 及方法》,公开了一种基于分析规则,利用一判断模块对XML格式网页的内容 中是否有相应的分析规则,再依判断结果决定是否再利用一分析模块对网页内 容进行评估,及根据所述分析规则中的限定判断所述分析后的网页内容是否符 合评估要求,期望能快速、有效地萃取所需浏览网页中的信息;但是在此一技 术中并未详细公开所述的分析规则。
另外一种已知将HTML文件转换成纯文字内容的技术,首先是对HTML文件 做标签的处理,删除不重要的标签、和其中一些标签内夹带的内容,接着从剩 余的内容中把剩余标签内夹带的文字或句子提取出来,以这些句子当中最长的 句子为基础句子(base句子),从base句子向前及向后以寻找在一预定范围内 (例如10个相邻句子范围)且长度够长的句子,这个过程称为距离扩散寻找步 骤,一旦找到这种句子就再从找到的句子,再往外寻找预定范围以内是否还有 长度够长的句子,直到找不到为止,最后将最前面的一句到最后面的一句范围 内所有的句子提出来,即为最后的纯文字内容,再将这个纯文字内容输出为纯 文字文件。
上述将HTML文件转换成纯文字内容的技术,存在着一些问题如下:
1.重要内文区块中间夹杂的不重要句子或文字,也会一并被萃取出来。
2.有的文章前后句子很短,若是未达到预设的长度就会被略过而无法被萃 取出来,也不会在扩散寻找的过程中被找出来。
3.有时最长的句子或文字未必是重要的内容,虽然最长的句子通常是重要 内容的机率很高,但也会有例外的情况,例如某一网页内的新闻内容非常短, 但是这个新闻内容才是重要的句子或文字,如广告或其它新闻超级链接可能是 最长的句子或文字,并不是我们所认为重要的句子或文字,若是采用前述的现 有技术,就会出现挑选内容完全错误的情况发生。
因此,如何在HTML文件,特别是从网页内容中找出和文件标题相关的纯 文字内容,才是我们所关心的课题,仅仅是把HTML文件中的纯文字内容萃取 出来是不够的,如果萃取出来的纯文字内容又与HTML文件的标题无关,也非 我们所期待的结果。
发明内容
本发明的目的在提出一种可以从超文字标签语言文件(HTML文件)中提取 重要的内容的方法,换言之就是可以简化HTML文件的内容,只将其中重要的 内容提取出来成为纯文字文件的一种方法。
本发明的目的之一在提出一种可从HTML文件中提取和HTML文件标题最接 近的内容,并输出成为纯文字文件的方法。
为达上述目的,本发明的方法的较佳实施例包括下列步骤:
1、取得HTML文件;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于易搜比控股公司,未经易搜比控股公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810185164.0/2.html,转载请声明来源钻瓜专利网。





