[发明专利]支持基于规则的文档内容挖掘的系统与方法无效

专利信息
申请号: 200780001495.8 申请日: 2007-04-10
公开(公告)号: CN101361063A 公开(公告)日: 2009-02-04
发明(设计)人: 陈翌;何余良 申请(专利权)人: 龙搜(北京)科技有限公司
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 北京市金杜律师事务所 代理人: 王茂华;李辉
地址: 100083中国北京市海*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 支持 基于 规则 文档 内容 挖掘 系统 方法
【说明书】:

技术领域

发明涉及数据管理。更具体地,本发明涉及一种从结构化或非结构化文档中提取内容的系统和方法。

背景技术

作为标准通用标记语言(SGML)子集的可扩展标记语言(XML),是被万维网联盟(W3C)定义的一系列规范,用以支持信息的组织与交换。包含在良好结构化的XML文件中的信息可保证因特网间不同应用的可靠性与互通性。因此,通过允许与不同格式的数据进行交换,XML可以显著地降低与数据管理和交换相关联的成本。

XML也可用于定义特定工业的内容模型。一旦确定了内容模型,则不同的应用可以使用此内容模型来标记信息,以便可以简便、有效地共享信息。例如,XML广泛应用于如下领域,如:电子商务、信息密集服务业及通信领域。

遗憾的是,对于因特网尤其是Web上的大多数可用信息,它们或者是非结构化格式、或者是以非通用方式的结构化格式。结果是,许多公共可访问的文档不易于分享、管理和存储。这种问题随着便携设备的增多而进一步加剧,其中所述便携设备通常没有统一的显示机制。

因此,需要一种可以从文档中提取内容并在便携设备上显示该内容的系统与方法。

发明内容

本发明的一个实施方式提供了一种用于支持从结构化或非结构化数据中提取内容的基于规则的内容挖掘的系统。在此操作中,系统接收包含结构化数据或非结构化数据、或者两者混合的文件。系统接着基于所收文件来生成易处理的可扩展标记语言(pXML)文件。系统然后基于一种或多种规则从pXML文件提取内容,并且生成特定格式的语义XML文件。

在本发明的变型中,从pXML文件中提取内容包括对pXML文件应用规则引擎。

在另一变型中,规则引擎包含一种或多种从pXML文件分析并提取内容的映射对象。

在另一变型中,映射对象有映射对象名称、即插即用的开关、激活开关与启动次序。

在另一变型中,映射对象包含:一种或多种输入规则、一种或多种输出规则、以及一种或多种子映射对象和/或子规则。

在另一变型中,输入规则可以是基于文本的输入规则或者基于元素的输入规则。

在另一变型中,基于文本的输入规则可以是文本分析规则或标签语法规则。文本分析规则可以包含如下一种或多种规则:行规则、固定长度规则、正则表达式规则、超文本标签规则、文本匹配规则。标签语法规则包含如下一种或多种规则:顺序规则、块“或”规则、重复规则、模板对象规则、符号标签规则、数字标签规则、字符串规则、存在规则、不存在规则、词规则、词大写规则、空规则。

在另一变型中,基于元素的输入规则可以是基于初级或高级元素的输入规则。基于初级元素的输入规则包含如下一种或多种规则:组合规则、对比规则、速记规则、混合规则、属于规则、执行规则、XML路径语言评价规则、其他规则。基于高级元素的输入规则可以包含以下一种或多种规则:语法序列规则、首尾序列规则、子映射对象规则。

在另一变型中,输出规则可以是如下一种或多种规则:“无指定”规则、“完整输入文本”规则、“输入”规则、“常值”规则、“子结果”规则、“最大子结果”规则、“平均子结果”规则、以及“表映射”规则。

在本发明的变型中,生成基于特定格式的语法XML文件包含,应用XSLT文件或外部程序以及生成应用特定的XML文件。

附图说明

图1示出了根据本发明的一个实施方式的基于规则的文档内容挖掘系统的操作;

图2示出了根据本发明的一个实施方式的基于规则的文档内容挖掘系统的示例性框图;

图3呈现了流程图,其中示出了根据本发明的一个实施方式的支持基于规则的内容挖掘系统的示例性操作处理;以及

图4示出了根据本发明的一个实施方式的支持基于规则的内容挖掘的示例性计算机系统。

表1示出了根据本发明的一个实施方式的映射对象的示例;

表2示出了根据本发明的一个实施方式的示例的映射模板,该模板将HTML文档转换成Docbook XML文档。

具体实施方式

呈现如下描述旨在使本领域技术人员能够制造和使用本发明,并且在特定应用及其需求的环境中提供了如下描述。所公开的实施方式的各种修改对于本领域技术人员来说是易见的,在不脱离本发明范围的情况下,在此所定义的通用原则可以适用于其他实施方式与应用。因此,本发明并不局限于所示出的实施方式,而是与权利要求书的最宽泛的范围相一致。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于龙搜(北京)科技有限公司,未经龙搜(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200780001495.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top