[发明专利]将超文字标签语言文件转换成纯文字文件的方法有效

申请号：	200810185164.0	申请日：	2008-12-11
公开（公告）号：	CN101751403A	公开（公告）日：	2010-06-23
发明（设计）人：	蔡弘扬;洪启豪	申请（专利权）人：	易搜比控股公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/22
代理公司：	北京律诚同业知识产权代理有限公司 11006	代理人：	梁挥;祁建国
地址：	开曼群岛大***	国省代码：	开曼群岛;KY
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种将超文字标签语言文件转换成纯文字文件的方法，其先将超文字标签语言文件做标签处理的动作，用以去除其它不必要的标签及标签中所包含的杂乱信息，以保留有用的HTML文件段落和至少一个目的标签及其所包含的内容，从该保留的HTML文件段落中将一目的标签及其它剩余标签的内容提取出来并记录其相关信息于一数据结构中，再根据数据结构所记录的信息进行段落区隔的步骤，以区隔出至少一个目标区块，然后将目标区块与HTML文件标题作关联性对比，以找出最接近标题文意的目标区块，作为基础区块组，再建立空间向量模型，找出其它区块中，和基础区块相似度大于一相似度门坎值的区块，最后将这些区块的内容输出成为纯文字文件。
搜索关键词：	文字标签语言文件转换方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

将超文字标签语言文件转换成纯文字文件的方法，其特征在于，包含下列步骤：A、取得一HTML文件；B、执行标签处理步骤，去除该HTML文件中大部份不必要的标签及该些不必要的标签所包含的内容，以保留有用的HTML文件段落，该段落包含至少一个目的标签及该目的标签所包含的内容；C、从该保留的HTML文件段落中将该些目的标签及其它剩余标签的内容提取出来，并依序记录其相关信息于一数据结构中；D、根据该数据结构中所记录的信息依照该些目的标签进行段落区隔的步骤，以区隔出至少一个目标区块组；以及E、将该些目标区块组与该HTML文件标题作关联性对比，以找出最接近标题文意的目标区块组，并将该目标区块组的内容输出成为纯文字文件。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于易搜比控股公司，未经易搜比控股公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/200810185164.0/，转载请声明来源钻瓜专利网。

上一篇：提高水产养殖动物抗应激能力的营养组合物及其制备方法、应用
下一篇：一种治疗局部顽固性皮肤病的药液

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]将超文字标签语言文件转换成纯文字文件的方法有效

专利文献下载