[发明专利]基于领域专家知识体系的信息抽取系统及信息抽取方法在审
申请号: | 201710289555.6 | 申请日: | 2017-04-27 |
公开(公告)号: | CN108804408A | 公开(公告)日: | 2018-11-13 |
发明(设计)人: | 司华建;贾真;耿伟;金重九 | 申请(专利权)人: | 安徽富驰信息技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/62;G06N5/02 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 230088 安徽省合肥市高*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息抽取 司法领域 核心处理模块 领域专家知识 信息抽取规则 信息抽取系统 资源管理模块 领域知识库 预处理模块 输出模块 抽取 梳理 信息抽取算法 规则库单元 专家知识库 抽取规则 规整 普适性 信息点 知识点 构建 分段 维护 输出 判决 | ||
本发明公开了一种基于领域专家知识体系的信息抽取系统及其信息抽取方法,包括:资源管理模块、预处理模块、核心处理模块、输出模块信息抽取方法为:司法领域的专家通过专家知识库单元梳理出司法领域的知识以构建领域知识库,司法领域的专家还通过资源管理模块梳理出知识点并对其定义;维护人员通过规则库单元根据信息抽取的需要编写抽取规则以形成信息抽取规则库;采用预处理模块对判决文书内容进行规整和分段;采用核心处理模块根据领域知识库和人工编写的信息抽取规则库,利用信息抽取算法抽取信息点,通过输出模块将抽取结果进行输出。本发明具有普适性高、维护成本低等优点。
技术领域
本发明涉及信息抽取领域,具体来说是一种基于领域专家知识体系的信息抽取系统及其信息抽取方法。
背景技术
判决书,法律术语,是指法院根据判决写成的文书。是法律界常用的一种应用写作文体,包括民事判决书、刑事判决书、行政判决书和刑事附带民事判决书。
最高人民法院发布新规:法院生效的判决书从2014年1月1日起在互联网全面公布,除涉及国家机密、个人隐私、未成年犯罪以及不宜晒的4类判决书外,公众均可随时查阅。
目前,现有的文书抽取技术主要以规则技术为基础,存在抽取的信息点零散以及不成体系的缺陷,因此无法满足抽取任务多变的需求,另外,现有的文本抽取技术维护成本极高,不适宜与广泛推广使用。
发明内容
本发明所要解决的技术问题是为了克服现有技术不具有普适性以及维护门槛高的缺陷,而提供一种基于领域专家知识体系的信息抽取系统及其信息抽取方法。
本发明解决上述技术问题提供的技术方案是:本发明公开了一种基于领域专家知识体系的信息抽取系统,包括:资源管理模块、预处理模块、核心处理模块、输出模块,所述的资源管理模块用于管理领域知识库和信息抽取规则库,所述的预处理模块用于对判决文书内容进行规整和分段,所述的核心处理模块用于根据领域知识库和人工编写的规则资源,利用信息抽取算法抽取信息点,所述的输出模块用于将抽取结果进行输出。
作为优选,所述的资源管理模块包括专家知识库单元和规则库单元,所述的专家知识库单元用于专家梳理司法领域的知识以构建领域知识库,且由司法领域的专家梳理出知识点并对其定义,所述的规则库单元用于根据信息抽取的需要由维护人员编写抽取规则形成信息抽取规则库。
作为优选,本发明还公开了一种上述基于领域专家知识体系的信息抽取系统的信息抽取方法,具体步骤如下:
(1)、司法领域的专家通过专家知识库单元梳理出司法领域的知识以构建领域知识库,司法领域的专家还通过资源管理模块梳理出知识点并对其定义;
(2)、维护人员通过规则库单元根据信息抽取的需要编写抽取规则以形成信息抽取规则库;
(3)、采用预处理模块对判决文书内容进行规整和分段;
(4)、采用核心处理模块根据领域知识库和人工编写的信息抽取规则库,利用信息抽取算法抽取信息点;
(5)、通过输出模块将抽取结果进行输出。
作为优选,所述的步骤(3)中,具体方法如下:确定各个段落载明的内容,然后采用朴树贝叶斯分类法或规则分类法进行分类,再进行排序,即实现了智能分段,最后输出分类结果。
作为优选,所述的规则分类法是根据维护人员编写的规则进行分类。
作为优选,所述的排序算法为fscore=w1*fBayesian+w2*fRule
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽富驰信息技术有限公司,未经安徽富驰信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710289555.6/2.html,转载请声明来源钻瓜专利网。