[发明专利]兼容多种语言的文档信息精准提取系统在审
申请号: | 202011004234.5 | 申请日: | 2020-09-22 |
公开(公告)号: | CN112132214A | 公开(公告)日: | 2020-12-25 |
发明(设计)人: | 刘秀萍;王程 | 申请(专利权)人: | 刘秀萍 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/10;G06F8/38;G06F8/20;G06F40/289;G06F40/295 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 317000 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 兼容 多种 语言 文档 信息 精准 提取 系统 | ||
本发明提供的兼容多种语言的文档信息精准提取系统,实现了支持向量机算法的多种语言的信息提取方法,并分别按照文档分类的实际应用,结果表明在主动学习能力与分类效果方面,支持向量机算法优势明显;设计了一种通用可行的兼容多种语言的文档信息提取架构,并基于该架构实现的兼容多种语言的文档信息精准提取系统;将系统分别应用于对中英文科技新闻文档的信息提取中,结果表明:兼容多种语言的信息提取系统是实体关系提取的成功实践,具有较好的语言移植与可扩展能力、交互性能强、智能化程度高、可扩展性高、提取速度快、信息提取精度高等优势,是一种具备显著创新性,且优势突出的文档信息提取系统。
技术领域
本发明涉及一种文档信息精准提取系统,特别涉及一种兼容多种语言的文档信息精准提取系统,属于文档信息提取技术领域。
背景技术
伴随计算机和办公智能化的普以及互联网特别是移动互联网的飞速发展,各种形式的电子文档正持续高速增长。近年来移动互联网的火热,进一步加速了电子文档的普以与应用,人们的日常生活、工作和学习中都无时无刻的与电子文档发生密切联系。虽然电子文档数量与日俱增,但在庞大的文档库中有很大部分是含有大量垃圾信息的,且其中的信息还具有很大无序性,面对海量的电子文档资源时,为获取所需要的信息,只能采用通读全文或者逐个检索的方法,这大大阻碍了人们获取有效信息的效率。因此,从众多电子文档中智能、快速、精准的得到用户感兴趣的信息正日益成为一个急待解决的问题。
信息提取技术虽是从众多文档中提取所需信息的有效手段,但要构建一个通用可行的信息提取系统却异常艰难和复杂。早期一般都是基于知识工程的方法构建信息提取系统,构建的系统虽具有一定的提取精度,但因提取规则都是基于手工建立的,需要花费大量的时间和资源,而且容易产生错误,导致系统的可移植能力较差。因此,当前迫切需要一种能够从训练语料库中智能获取文档信息提取模式的方法,而基于统计机器学习的信息提取方法能很好的满足这一需求,该方法是包括学习阶段与应用阶段两个部分的提取方法,其中,学习阶段主要是根据机器学习算法和训练语料训练模型,以构建提取模型;应用阶段使用学习阶段构造的模型对输入的文档进行信息提取。因此该类方法具有对领域知识的依赖性比较低,可移植能力较高的优点。近年来伴随已标注样本集的不断增加积累,基于统计机器学习的信息提取技术研发与应用受到越来越多的青睐。
在20世纪60年代末期,有一种文档理解的技术,主要用于从自然语言文档中提取出结构化的数据信息,这就是信息提取技术的前身。之后,伴随因特网的发展和普及,涌现出大量的在线文档和离线文档,这也在一定程度上为信息提取带来了便利。
近年来,伴随语料库的不断扩充及应用需求的逐渐增加,信息提取技术变得更加火热。在理论研究方面,大多数现有技术将重点放在以下几个方面:机器学习的信息提取方法、文档理解方法、篇章分析方法、Web信息提取方法及文档事件探测方法等;在实际应用方面,大部分是构建仅仅适用于某一领域范围的提取系统,或与信息检索、文档挖掘等其它自然语言处理技术相互协作以构建功能相对完善的知识发掘与识别系统。
现有技术的英文信息提取起步较早,在命名实体识别和实体关系提取方面的技术较成熟,但仍有许多关键性的难题需要突破。现有技术重点放在基于机器学习的信息提取方法上,根据模型训练过程中采用的是否是已标注的训练样本集,可分为有监督的学习方法和无监督的学习方法,虽然有监督的机器学习方法逐渐丰富,但同时也存在无法快速得到诸多的已标注训练样本集等瓶颈,然而基于无监督的学习方法却很好地解决了这个难题,但这种方法目前仍处于空白状态,存在着一些急待克服的问题,如特征空间冗余性的缺陷等。
中文信息提取起步较晚,中文不具有英文那种词与词之间存在空格分隔符等的天然特征,使得中文信息提取的变得更加困难。现有技术在中文信息提取方面主要致力于提高命名实体识别的精确度和召回率及构建简单的信息提取系统上,然而对于复杂强健的中文信息提取系统的设计与实现较弱。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于刘秀萍,未经刘秀萍许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011004234.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种显示屏支架以及显示屏组件
- 下一篇:一种基于无人机的电力巡检装置