[发明专利]一种文本内容提取方法和装置有效

申请号：	201210469940.6	申请日：	2012-11-20
公开（公告）号：	CN103020129A	公开（公告）日：	2013-04-03
发明（设计）人：	叶伟	申请（专利权）人：	中兴通讯股份有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/21
代理公司：	工业和信息化部电子专利中心 11010	代理人：	齐洁茹
地址：	518057 广东省深圳市南山***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本内容提取方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及通信技术领域，尤其涉及一种文本内容提取方法和装置。

背景技术

随着互联网技术的迅猛发展，浏览网页逐渐成为人们获取信息的主要手段，而在所有接触的页面信息中，文本信息又占了其中的主要部分。如何有效的提取页面中的文本信息是很重要的，因为如果将文本的内容全部提取出来，其中必然会掺杂许多不必要的内容，如广告信息、导航信息等等，这些信息通常是大量重复的，而且并不是用户感兴趣和需要的内容；再者，大量重复和无效的信息也会降低文本聚类和文本分类的准确性，会加大内容检索的工作量。而在不同的网页中，页面的排版和布局是多种多样的，若单从模块或位置进行划分，则很难准确的获取有效的文本信息。

目前，文本内容的提取手段是将输入网页分解为多个模块，并通过计算每个模块的综合得分来确定对应模块是否为内容模块。其中，综合得分的计算方式为：综合得分=位置得分×文字长度/链接文字长度，然而，该计算方式仍然不够精确，并不能准确对内容进行划分。所以，目前如何能提供一种文本提取方法，实现对文本内容的准确提取成为目前亟待解决的技术问题。

发明内容

本发明提供一种文本内容提取方法和装置，用以解决现有技术中采用的文本内容提取方法不能准确提取文本内容的问题。

为了解决上述问题，本发明采用的技术方案如下：

一方面，本发明提供一种文本内容提取方法，包括：

将输入的超文本标记语言HTML网页分解为多个模块，根据各模块在网页布局中的位置，确定各模块的位置得分，并计算各模块的文本长度；

提取各模块包含的链接地址，统计所有链接地址中除协议字符外使用频率最高的字符内容，将包含所述使用频率最高的字符内容的各链接地址标记为有效链接，将不包含所述使用频率最高的字符内容的各链接地址标记为无效链接；

根据综合得分=模块的位置得分×（模块的文本长度+模块内有效链接的文字长度）/模块内无效链接的文字长度，确定各模块的综合得分，并判定综合得分超过设定阈值的模块为内容模块。

进一步地，本发明所述方法中，使用Table标签或Div标签将输入的HTML网页分解为多个模块。

进一步地，本发明所述方法中，若分解得到的模块还能够继续分解且未出现标签混杂的情况，则对分解后的模块继续分解。

进一步地，本发明所述方法中，在标记有效链接和无效链接时，统一计算各链接内的文字长度；或者，在确定各模块的综合得分时，分别计算各模块包含的每个链接内的文字长度。

进一步地，本发明所述方法中，计算各模块的文本长度具体包括：对于每个模块，提取出模块的HTML标签，根据所述HTML标签获取对应模块中包含的文本信息，计算该文本信息的长度，得到对应模块的文本长度；

进一步地，本发明所述方法中，通过achor标签提取出各模块的链接地址。

另一方面，本发明还提供一种文本内容提取装置，包括：

网页处理单元，用于将输入的超文本标记语言HTML网页分解为多个模块，根据各模块在网页布局中的位置，确定各模块的位置得分，并计算各模块的文本长度；

标记处理单元，用于提取各模块包含的链接地址，统计所有链接地址中除协议字符外使用频率最高的字符内容，将包含所述使用频率最高的字符内容的各链接地址标记为有效链接，将不包含所述使用频率最高的字符内容的各链接地址标记为无效链接；

内容提取单元，用于根据综合得分=模块的位置得分×（模块的文本长度+模块内有效链接的文字长度）/模块内无效链接的文字长度，确定各模块的综合得分，并判定综合得分超过设定阈值的模块为内容模块。

进一步地，本发明所述装置中，所述网页处理单元，具体用于使用Table标签或Div标签将输入的HTML网页分解为多个模块。

进一步地，本发明所述装置中，所述网页处理单元，还用于判断分解得到的模块是否还能够继续分解且未出现标签混杂的情况，若是，则对分解后的模块继续分解。

进一步地，本发明所述装置中，所述标记处理单元，还用于在标记有效链接和无效链接时，统一计算各链接内的文字长度；或者，所述内容提取单元，还用于在确定各模块的综合得分时，分别计算各模块包含的每个链接内的文字长度。

进一步地，本发明所述装置中，所述网页处理单元，具体用于对于每个模块，提取出模块的HTML标签，根据所述HTML标签获取对应模块中包含的文本信息，计算该文本信息的长度，得到对应模块的文本长度；

进一步地，本发明所述装置中，所述标记处理单元，具体用于通过achor标签提取出各模块的链接地址。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中兴通讯股份有限公司，未经中兴通讯股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201210469940.6/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种文本内容提取方法和装置有效

专利文献下载