[发明专利]一种基于示例页面的网页正文提取方法在审
| 申请号: | 201310665878.2 | 申请日: | 2013-12-11 |
| 公开(公告)号: | CN103699591A | 公开(公告)日: | 2014-04-02 |
| 发明(设计)人: | 兰秋军 | 申请(专利权)人: | 湖南大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 长沙新裕知识产权代理有限公司 43210 | 代理人: | 赵登高 |
| 地址: | 410082 *** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 示例 页面 网页 正文 提取 方法 | ||
1.一种基于示例页面的网页正文提取方法,其特征在于,由下述步骤构成:
(1)用户或程序指定一个示例页面;
(2)利用网页标签初步过滤,获得含正文的文本;
(3) 利用编辑距离模型计算待提取页面文本与示例页面文本间的相似性,识别正文边界;
(4)提取正文。
2.根据权利要求1所述的一种基于示例页面的网页正文提取方法,其特征在于,指定任意一个示例页面即可对与示例页面相似的待提取页面进行正文提取。
3.根据权利要求1所述的一种基于示例页面的网页正文提取方法,其特征在于,对待提取页面和示例页面进行初步过滤处理以提高后续正文提取的准确性和效率,初步过滤的方法是利用符合W3C标准的innerHTML属性获得包含HTML标签的内容网页正文,再用正则表达式去除HTML标签,得到滤后的两文本分别为相似文本。
4.根据权利要求1或3所述的一种基于示例页面的网页正文提取方法,其特征在于,对相似文本应用文本相似性分析技术识别网页正文的开始和结束边界,文本相似度的计算基于相似模型,需要计算两个相似度序列值,步骤如下:
(1)对齐相似文本字符串的头部,
(2)从上至下开始分别截取相似文本指定长度的子字符串,记作s1,s2,
(3)计算s1,s2的相似值,
(4)向后移动一个字符,继续截取下一个指定长度的子字符串,仍记作s1,s2,
(5)转到步骤(2)重复上述过程,直至末尾,将这样获得的相似序列记作FS;
类似地,
(1)对齐相似文本的尾部,
(2)从下至上开始分别截取相似文本指定长度的子字符串,记作s1,s2,
(3)计算s1,s2的相似值,
(4)向前移动一个字符,继续截取下一个指定长度的子字符串,仍记作s1,s2,
(5)转到步骤(2)重复上述过程,直至顶部,将这样获得的相似序列记作BS。
5.根据权利要求4述的一种基于示例页面的网页正文提取方法,其特征在于,获得两个相似序列,据此识别正文的边界,分析两个序列,即开始和结束时相似度值比较高,中间相似度值迅速变小,出现转折的转折点对应正文的边界,其中序列FS的转折点对应的是正文的头部,序列BS的转折点对应正文的尾部;根据序列值的方式反推,即可得到正文在相似文本中的首尾边界位置,从而可抽取出正文,将噪声文本信息过滤掉。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310665878.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:药箱自动码垛生产线
- 下一篇:一种地下室外墙外侧排水盲沟





