[发明专利]基于XML的领域要素提取配置语言系统有效

专利信息
申请号: 201911130457.3 申请日: 2019-11-19
公开(公告)号: CN111078947B 公开(公告)日: 2023-06-02
发明(设计)人: 万玉晴;王霄;蒋东来 申请(专利权)人: 太极计算机股份有限公司
主分类号: G06F16/80 分类号: G06F16/80
代理公司: 北京纽乐康知识产权代理事务所(普通合伙) 11210 代理人: 王珂
地址: 100102 北京市朝*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 xml 领域 要素 提取 配置 语言 系统
【说明书】:

发明公开了一种基于XML的领域要素提取配置语言系统,该系统包括TZIE语言规则模块、TZIE语言解析器模块、TZIE功能调度器模块,TZIE语言规则模块包括TZIE语言模块、定义领域词典模块、定义要素模块、定义提取方法模块、配置方法关系模块、配置操作符模块;TZIE语言解析器模块把XML文件中的要素提取配置变成计算机代码语言;TZIE功能调度器模块依据要素提取任务中配置的操作符,调用相应的功能。通过跨领域文本要素提取配置,提供了一种跨领域通用的定义要素方式,同时可以根据文本特征配置适合的方法进行提取,tzie将各种技术封装成为功能操作符,形成一个XML配置文件,易于维护和优化。

技术领域

本发明涉及文本要素提取配置语言TZIE技术领域,具体来说,涉及一种基于XML的领域要素提取配置语言TZIE系统,TZIE命名为:太极政务信息提取配置语言。

背景技术

命名实体识别是自然语言处理技术的一个基本任务,旨在文本中识别出命名性指称项,为关系抽取等任务做铺垫。狭义上,是识别出人名、地名和机构名等几个通用的命名实体。但在特定的领域中,需要定义领域内的各种实体类型。我们把自定义的领域命名实体,称之为领域要素,后面简称要素,TZIE提供了一种跨领域的、通用的定义要素方式,可以根据各种应用场景的需求,自定义需要提取的要素。

另外,目前命名实体识别方法有很多种,比如:基于词典的方法、基于HMM(隐马尔科夫)的方法、基于CRF(条件随即场)的方法等等,各有各的特点,通常是从精度、速度、存储空间等角度选用不同的技术进行识别,TZIE的不同在于,它是一个整合各种方法的信息提取框架,充分考虑了文本特征,选用最适合的技术进行提取。

我们面向司法业务的具体需求,以司法领域的案件卷宗为样本,对司法卷宗文本进行特征分析,对司法案情要素进行归纳,设计开发并验证了TZIE配置语言的所有功能。

司法电子卷宗由法院、检察院、司法行政机关在案件受理过程中产生的相关正式文件构成,主要包括电子文档、图像、音视频等电子文件。随着司法信息化建设的深入,当前各级司法部门(法院、检察院、司法行政机关)存储了海量的案件电子卷宗,这些异构文件中包含了海量信息,人为阅读处理卷宗文件效率低下,很难快速形成对案卷信息的全面准确认识,因此需要构建一个可整合多部门业务的司法卷宗知识模型体系,并基于这些模型构建上层的智能应用服务或应用系统,司法卷宗知识模型体系需要构建在领域知识库之上,知识库是对多元异构的司法电子卷宗材料进行知识化处理的结果,而司法要素信息提取又是知识化工作的基础,因此解决电子卷宗要素信息提取问题是整个司法智能应用实现的前提,目前各级司法单位具有迫切需求。

发明内容

针对相关技术中的上述技术问题,本发明提出一种基于XML的领域要素提取配置语言系统,能够克服现有技术的上述不足。

为实现上述技术目的,本发明的技术方案是这样实现的:

一种基于XML的领域要素提取配置语言系统,包括TZIE语言规则模块、TZIE语言解析器模块、TZIE功能调度器模块,其中,

所述TZIE语言规则模块包括TZIE语言模块、定义领域词典模块、定义要素模块、定义提取方法模块、配置方法关系模块、配置操作符模块;

所述TZIE语言解析器模块,用于借助DOM4J解析XML结构,把XML文件中的要素提取配置变成计算机可识别的代码语言,完成功能调用;

所述TZIE功能调度器模块,用于依据要素提取任务中配置的操作符,到底层的功能池中调用相应的功能;

所述TZIE语言模块包括根节点tzie,所述根节点tzie用于使用节点和操作符关键字;

所述定义领域词典模块包括dict节点、keywords节点、words节点、kwspath节点;

所述dict节点用于定义词典;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于太极计算机股份有限公司,未经太极计算机股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911130457.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top