[发明专利]一种自适应结构化的文档抽取方法有效

申请号：	202011560863.6	申请日：	2020-12-25
公开（公告）号：	CN112632421B	公开（公告）日：	2022-05-10
发明（设计）人：	傅啸;康文涛	申请（专利权）人：	杭州电子科技大学
主分类号：	G06F16/955	分类号：	G06F16/955;G06F16/957;G06F40/194;G06F40/216;G06F40/289
代理公司：	杭州君度专利代理事务所(特殊普通合伙) 33240	代理人：	朱月芬
地址：	310018 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种自适应结构文档抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种自适应结构化的文档抽取方法，其特征在于首先从互联网中采集原始网页并存储，然后对采集到的原始网页中的原文进行通用无意义清洗，接下来根据Xpath定位网页中的元素，自动对比抽取出网页中有价值的内容，最后将抽取到的内容按照结构化的格式存储起来；通过改进的抽取规则实现不需要先验知识和人工标注数据，而是通过挖掘网页之间的语义相似性，自动生成适用的抽取模式；

包括如下步骤：

步骤1：根据指定的网页地址从互联网采集公开原始网页，并获得原始网页的文档内容；

步骤2：将步骤1抽取的文档内容存储到数据库中；存储时同步存储文档内容对应的url；

步骤3：对文档内容进行清洗；

步骤4：对清洗后的文档内容进行自适应抽取；

步骤5：实现抽取结果的字段对齐，存储抽取结果，将抽取结果进行整合后存入数据库中，确保数据库中信息的一致性和完整性；

步骤3具体实现如下：

3-1对于文档内容中与主题内容无关的节点进行清除，所述的节点包括meta、font标签；

3-2清除注释、脚本语言script、样式定义style标签及标签对应内容；

3-3清除导航栏、分类表、广告区域或友情链接；对于导航栏、分类表、广告区域或友情链接，若在它们的内容块中链接文字所占的比例小于设定阈值，则说明该表是一个可保留的链接列表；由于内容块中链接文字多以链接列表的形式存在，因此可计算表中链接文字和普通文字总数的比值，若该比值小于设定阈值，则说明该表有较大可能是一个可保留的链接列表；

3-4清除空表；

步骤4具体实现如下：

4-1基于Xpath对文档内容进行抽取；

4-2整理抽取结果；经过抽取后，剩余的文档内容均可以被整理为标签：文本的结构化表示；其中，标签为文档内容中某元素对应的Xpath，文本为该Xpath对应元素的具体内容；

4-3将抽取后的文本和数据库中存储的同站点下历史采集进行比较，分别计算相同标签下对应文本的相似度；现有文本S₁、文本S₂；计算两个文本相似度具体步骤如下：

4-3-1文本分词，将文本拆分成粒度更细的单位处理；英文文本由空格作为自然分隔符，直接得到单词；中文以字为单位，进行拆分；

4-3-2文本向量化，使用词袋模型统计词频；假设文本S₁、文本S₂构成的词袋中共有n个词，得到文本S₁、文本S₂对应的向量表示分别为X＝[x₁,x₂,...,x_n],Y＝[y₁,y₂,...,y_n]，其中x_i和y_i表示分别表示词袋中第i个词在文本S₁、文本S₂中出现的次数；