[发明专利]基于深度学习的网页正文抽取方法有效

专利信息
申请号: 202110026891.8 申请日: 2021-01-09
公开(公告)号: CN112667940B 公开(公告)日: 2022-02-18
发明(设计)人: 陈前华 申请(专利权)人: 广东电子工业研究院有限公司
主分类号: G06F16/957 分类号: G06F16/957;G06N3/04;G06N3/08
代理公司: 北京喆翙知识产权代理有限公司 11616 代理人: 叶似锦
地址: 523808 广东省东莞*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 深度 学习 网页 正文 抽取 方法
【权利要求书】:

1.基于深度学习的网页正文抽取方法,其特征在于,包括如下步骤:

1)根DOM节点到叶子DOM节点的数据集准备:把正文提取任务定义为一个文本分类任务:对于一个文本片段,分类为应该保留或者不应该保留,通过训练LSTM模型,输入一个内容文本块,即从根DOM节点到叶子DOM节点的整条路径,得到一个是否保留这条路径的分类的预测概率的判断;对文本块的从属信息进行编码,HTML被解析为DOM树,树的每个节点都是一个标签,使用从DOM树根节点到目标文本块节点的标签用以表示这个路径,即为标签路径;

2)根DOM节点到叶子DOM节点的数据集构建:把HTML所有的标签找出来,并且用正则匹配找到标签的位置,把HTML分成标签和内容;将单独存在的、后续不关心的标签及对应的内容去掉,进行内容分配给标签的操作:若开始标签和下一个标签中间有内容,则内容分配给这个开始标签;如果结束标签前有内容未被分配,即前一个标签也是结束标签时,则把内容分配给这个标签;特殊情况时,当文本标签嵌套文本标签时,出现上一个结束标签和下一个开始标签的中间有内容的情况,分配给上一个结束标签;HTML被解析成标签的序列,网页被解析为一个标签序列,按照如下规则对标签进行两两匹配,即开始标签和结束标签相匹配:准备一个空栈Cache并按照标签遍历处理好的HTML,当遇到一个开始标签的时,直接压栈,当遇到一个Cache为空的时,直接压栈;当遇到一个结束标签的时,对目前栈顶的标签和这个结束标签进行简单匹配,判断是否为相应的标签,如果不匹配,则向前搜索,直到搜到匹配的为止,然后将这个结束标签压进栈中,把Cache的状态记录下来,作为之后标注的一个单位,然后把结束标签、相应的开始标签弹出,最后得到空的Cache即为路径,实现标签的两两配对,并构造节点;

3)对根DOM节点到叶子DOM节点的数据集中的数据进行标注:根据步骤2)得到标签路径后,根据路径中叶子节点所对应的文本,对每一行路径进行打类别标签以供深度学习模型训练和测试使用;如果这一个文本块是正文,类别标签标记为1,如果不是文正,则类别标签标记为0;

4)利用Fasttext对路径的标签进行预训练和编码:采用将词汇表中的词汇映射到向量空间的预训练技术,把每个词汇的高维表示通过使用大量无标注数据的文本语料训练深层网络结构,从而得到一组低维的模型参数,这种深层网络结构被称为“预训练模型”;先用Fasttext分别对标签及其class进行预训练,得到分别为10维、50维的两组向量;给文字内容长度、终止标点符号数各1维,在进入模型后,最后两位通过一个输入层为2维、输出层为10维的神经网络,并和前面60维数据拼接为70维的向量数据作为LSTM的输入;

5)训练标签路径文本的LSTM分类模型:根据步骤4)中70维的向量,把LSTM模型的长度设置15,长度大于15的标签路径样本,截断其长度使其长度为15,长度小于15的标签路径样本,使用0向量补其到15的长度,将处理后的标签路径样本送入到LSTM模型中,LSTM模型输出的隐状态向量输入全连接网络,经全连接网络后,再经过一层softmax层,最后得到分类结果,进行交叉熵损失的反向传播整神经网络的权重;

6)LSTM模型对标签路径文本进行预测;

7)还原抽取到的网页正文:通过后序遍历的逻辑还原DOM树,并同时得到每一条标签路径,再保存一个列表Keep list保存决定保留的HTML,为标签定义一个类Tag,保存与它对应的开始或结束标签Tag.Symmetric;在遍历时,如果遇到开始标签,就同时往Cache和Keeplist压栈;遇到结束标签,并生成标签路径,同时马上进行判断;如果是正文,就压入Keeplist,如果不是,就不压入,并从前找到Tag.symmetric进行删除,还原正文顺序。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东电子工业研究院有限公司,未经广东电子工业研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110026891.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top