[发明专利]一种基于正则表达式建立文本抽取模型的方法及设备在审
申请号: | 202110797247.0 | 申请日: | 2021-07-14 |
公开(公告)号: | CN113536768A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 苏江文;王燕蓉;陈江海;张垚;庄莉;梁懿 | 申请(专利权)人: | 福建亿榕信息技术有限公司;国网信息通信产业集团有限公司;国网信通亿力科技有限责任公司 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F16/903 |
代理公司: | 福州科扬专利事务所(普通合伙) 35001 | 代理人: | 李晓芬 |
地址: | 350000 福建省福*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 正则 表达式 建立 文本 抽取 模型 方法 设备 | ||
本发明涉及一种基于正则表达式建立文本抽取模型的方法,包括如下步骤:S1、编写若干个正则表达式;S2、根据所述正则表达式,在语料库中抽取语料集;S3、将所述语料集分割为训练集与验证集;S4、构建文本抽取模型;S5、将训练集输入至文本抽取模型,训练文本抽取模型;S6、将验证集输入训练好的文本抽取模型,对训练好的文本抽取模型进行验证。
技术领域
本发明涉及一种基于正则表达式建立文本抽取模型的方法及设备,属于自然语言处理领域。
背景技术
正则表达式是对字符串规则的一种描述方法,通常被用来检索、替换那些符合某个规则的文本。例如,提取电子邮件的正则表达式为:/^(\w)+(\.\w+)*@(\w)+((\.\w{2,3}){1,3})$/,其中的\w代表任意字符,{2,3}代表出现两次或三次,该正则表达式可以识别出xxxx@xxxx.xxx格式的电子邮件地址。正则表达式表达灵活,可以匹配几乎任何模式的文字。但应用正则表达式的前提是,对拟提取的信息的“模式”或“规则”要非常明确。因此不适用于没有明显规则的文本中的关键信息提取。
有监督文本抽取模型的建立过程中,迭代训练占据了大量的时间,所使用的训练数据在一定程度上决定了模型的性能,而大量训练数据又需要人工进行标注。
条件随机场模型(CRF模型)是属于有监督文本抽取模型中的一种,常用于标注语料中词语的词性(比如说,标注出语料中的命名实体或动词、名词等)。CRF模型对于没有明显模式(人工很难观察到特定规则)的关键信息具有较强的抽取能力。但CRF模型的准确率不由其本身决定,而主要取决于用以训练的标注语料是否和目标测试语料比较一致,需要事先准备较多的人工标注语料,且抽取效果不稳定、准确性难以预估,不适用于对抽取准确性有比较严格要求的场景。
公开号为CN201910455064.3的专利《关键词语料标注训练提取工具》公开了一种可降低人工标注过程繁复度,并能提高海量关键词语料标注效率和准确率的标注训练工具。步骤如下:关键词语料标注准备模块对不同来源的海量语料数据进行区分,半自动化语料关键词标注模块创建关键词标注任务,自主选择适配算法并开展基于算法模型的自动标注,通过集成CHI、LDA、TEXTRANK、TFIDF中至少一种关键词抽取算法,对待标注文本语料数据进行预标注处理,并对多种算法标注结果进行融合,当标注任务完成后,反馈式关键词标注模型学习训练模块对关键词标注算法模型进行训练;关键词标注模型效果评估模块对模型指标量化标注效果进行自动评估。
发明内容
为了解决上述现有技术中存在的问题,本发明提供一种基于正则表达式建立文本抽取模型的方法,通过编写少量正则表达式代替人工标注,有效减少建立有监督文本抽取模型所需要的人力成本及时间。
本发明的技术方案如下:
技术方案一:
一种基于正则表达式建立文本抽取模型的方法,包括如下步骤:
S1、编写若干个正则表达式;
S2、根据所述正则表达式,在语料库中抽取语料集;
S3、将所述语料集分割为训练集与验证集;
S4、构建文本抽取模型;
S5、将训练集输入至文本抽取模型,训练文本抽取模型;
S6、将验证集输入训练好的文本抽取模型,对训练好的文本抽取模型进行验证。
进一步的,所述文本抽取模型为CRF模型。
进一步的,步骤S6中还设置有一阈值;若验证模型的正确率低于所述阈值,则跳转至步骤S1。
技术方案二:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建亿榕信息技术有限公司;国网信息通信产业集团有限公司;国网信通亿力科技有限责任公司,未经福建亿榕信息技术有限公司;国网信息通信产业集团有限公司;国网信通亿力科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110797247.0/2.html,转载请声明来源钻瓜专利网。