[发明专利]将超文字标签语言文件转换成纯文字文件的方法有效
| 申请号: | 200810185164.0 | 申请日: | 2008-12-11 |
| 公开(公告)号: | CN101751403A | 公开(公告)日: | 2010-06-23 |
| 发明(设计)人: | 蔡弘扬;洪启豪 | 申请(专利权)人: | 易搜比控股公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/22 |
| 代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 梁挥;祁建国 |
| 地址: | 开曼群岛大*** | 国省代码: | 开曼群岛;KY |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种将超文字标签语言文件转换成纯文字文件的方法,其先将超文字标签语言文件做标签处理的动作,用以去除其它不必要的标签及标签中所包含的杂乱信息,以保留有用的HTML文件段落和至少一个目的标签及其所包含的内容,从该保留的HTML文件段落中将一目的标签及其它剩余标签的内容提取出来并记录其相关信息于一数据结构中,再根据数据结构所记录的信息进行段落区隔的步骤,以区隔出至少一个目标区块,然后将目标区块与HTML文件标题作关联性对比,以找出最接近标题文意的目标区块,作为基础区块组,再建立空间向量模型,找出其它区块中,和基础区块相似度大于一相似度门坎值的区块,最后将这些区块的内容输出成为纯文字文件。 | ||
| 搜索关键词: | 文字 标签 语言 文件 转换 方法 | ||
【主权项】:
将超文字标签语言文件转换成纯文字文件的方法,其特征在于,包含下列步骤:A、取得一HTML文件;B、执行标签处理步骤,去除该HTML文件中大部份不必要的标签及该些不必要的标签所包含的内容,以保留有用的HTML文件段落,该段落包含至少一个目的标签及该目的标签所包含的内容;C、从该保留的HTML文件段落中将该些目的标签及其它剩余标签的内容提取出来,并依序记录其相关信息于一数据结构中;D、根据该数据结构中所记录的信息依照该些目的标签进行段落区隔的步骤,以区隔出至少一个目标区块组;以及E、将该些目标区块组与该HTML文件标题作关联性对比,以找出最接近标题文意的目标区块组,并将该目标区块组的内容输出成为纯文字文件。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于易搜比控股公司,未经易搜比控股公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200810185164.0/,转载请声明来源钻瓜专利网。





