[发明专利]面向新闻网页的正文抽取方法及系统、信息数据处理终端在审

申请号：	201810501222.X	申请日：	2018-05-23
公开（公告）号：	CN108959372A	公开（公告）日：	2018-12-07
发明（设计）人：	詹咏松;程国艮	申请（专利权）人：	中译语通科技股份有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	北京万贝专利代理事务所(特殊普通合伙) 11520	代理人：	马红
地址：	100040 北京市石***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	正文抽取新闻网页正文信息信息数据处理噪音信息终端计算机软件技术服务器资源大概位置定位文本快速获取快速提取时间信息线性计算准确定位过去的切块去除标签网页文本节约分析
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种面向新闻网页的正文抽取方法，其特征在于，所述面向新闻网页的正文抽取方法基于每个新闻都有对应的时间，对时间进行定位，确定正文位置，进行切块；对所定位的正文进行判断，去除噪音信息，得到准确的正文信息。

2.如权利要求1所述的面向新闻网页的正文抽取方法，其特征在于，所述面向新闻网页的正文抽取方法包括以下步骤：

步骤一，基于新闻网页的都有个时间T这一特点，以T为起点进行正文搜索；

步骤二，统计标签<p>聚集的语义块；

步骤三，计算文本相对于字节数的多少来获取文本密度；

步骤四，计算d的大小；

步骤五，最后用d来判断是否为正文，并去除噪音信息；

步骤六，获取正文信息。

3.如权利要求2所述的面向新闻网页的正文抽取方法，其特征在于，所述面向新闻网页的正文抽取方法以时间T以后的第一个标签</p>所在行为x₀，分别记为x₁,…x_n,x₀与x₁之间的距离记为d₁，x₁与x₂之间的距离记为d₂；其他为d₂,d₃,…,d_n；并且记前一个标签</p>所在行与后面相邻的标签<p所在行的距离d_i对应权值为w_i；