[发明专利]支持基于规则的文档内容挖掘的系统与方法无效
申请号: | 200780001495.8 | 申请日: | 2007-04-10 |
公开(公告)号: | CN101361063A | 公开(公告)日: | 2009-02-04 |
发明(设计)人: | 陈翌;何余良 | 申请(专利权)人: | 龙搜(北京)科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京市金杜律师事务所 | 代理人: | 王茂华;李辉 |
地址: | 100083中国北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 支持 基于 规则 文档 内容 挖掘 系统 方法 | ||
1.一种用于支持从结构化数据或非结构化数据提取内容的基于规则的内容挖掘的方法,所述方法包括:
接收包含结构化数据、或非结构化数据、或者两者混合数据的文件;
基于所述接收的文件来生成易处理的可扩展标记语言pXML文件;
基于一种或多种规则来从所述pXML文件提取内容,包括:针对该pXML文件应用规则引擎;以及
基于指定格式来生成语义XML文件;
其中所述规则引擎包括一个或多个映射对象,用以从所述pXML文件分析和提取内容。
2.根据权利要求1所述的方法,其中所述映射对象具有:
映射对象名称;
即插即用开关;
激活开关;以及
激活顺序。
3.根据权利要求1所述的方法,其中所述映射对象包括:
一个或多个输入规则;
一个或多个输出规则;以及
一个或多个子映射对象和/或子规则。
4.根据权利要求3所述的方法,其中所述输入规则是基于文本的输入规则或是基于元素的输入规则。
5.根据权利要求4所述的方法,
其中所述基于文本的输入规则是文本分析规则或标签语法规则;
其中所述文本分析规则包括以下一个或多个:
行规则、固定长度规则、正则表达式规则、超文本标签规则、
文本匹配规则;以及
其中所述标签语法规则包括以下一个或多个:
顺序规则、块“或”规则、重复规则、模板对象规则、符号标签规则、数字标签规则、字符串规则、存在规则,不存在规则、词规则、词大写规则和空规则。
6.根据权利要求4所述的方法,
其中所述基于元素的输入规则是基于初级元素的输入规则或基于高级元素的输入规则;
其中基于初级元素的输入规则包括以下一个或多个:组合规则、对比规则、速记规则、混合规则、属于规则、执行规则、XML路径语言评价规则以及混杂规则;以及
其中基于高级元素的输入规则包括以下一个或多个:语法序列规则、首尾序列规则以及子映射对象规则。
7.根据权利要求3所述的方法,其中所述输出规则是以下一个或多个:
“无指定”规则、“完整输入文本”规则、“输入”规则、“常值”规则、“子结果”规则、“最大子结果”规则、“平均子结果”规则以及“表映射”规则。
8.根据权利要求1所述的方法,其中基于指定格式生成语义的XML文件包括:应用XSLT文件或外部程序文件以生成应用特定的XML文件。
9.一种计算机系统,用于支持从结构化数据或非结构化数据提取内容的基于规则的内容挖掘,该计算机系统包括:
处理器;
存储器;
接收机构,配置以接收包含结构化数据或非结构化数据、或者两者混合的文件;
预处理器,配置以基于所述接收的文件生成易处理的可扩展标记语言pXML文件;
规则引擎,配置以基于一种或多种规则来从所述pXML文件中提取内容;以及
后处理器,配置以基于指定格式生成语义XML文件;
其中所述规则引擎包括一个或多个映射对象,用以从pXML文件分析和提取内容。
10.根据权利要求9所述的计算机系统,其中所述映射对象具有:
映射对象名称;
即插即用开关;
激活开关;以及
激活顺序。
11.根据权利要求9所述的计算机系统,其中所述映射对象包括:
一种或多种输入规则;
一种或多种输出规则;以及
一种或多种子映射对象和/或子规则。
12.根据权利要求11所述的计算机系统,其中所述输入规则是基于文本的输入规则或基于元素的输入规则。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于龙搜(北京)科技有限公司,未经龙搜(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200780001495.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:粘胶衬里
- 下一篇:带有可更换的测量插件的温度计和更换该测量插件的方法