[发明专利]一种基于预训练语言模型的中文文本关键信息抽取方法有效
| 申请号: | 202010460134.7 | 申请日: | 2020-05-27 |
| 公开(公告)号: | CN111444721B | 公开(公告)日: | 2022-09-23 |
| 发明(设计)人: | 俞扬;詹德川;周志华;李龙宇 | 申请(专利权)人: | 南京大学 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06F40/211;G06N3/04;G06N3/08 |
| 代理公司: | 南京乐羽知行专利代理事务所(普通合伙) 32326 | 代理人: | 李玉平 |
| 地址: | 210046 江苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 训练 语言 模型 中文 文本 关键 信息 抽取 方法 | ||
本发明公开了一种基于预训练语言模型的中文文本关键信息抽取方法,具体步骤如下:(1)将待抽取的关键信息进行分类,易于归纳组成规则的信息类别,使用正则匹配的方法抽取。(2)对命名实体使用序列标注模型抽取。(3)序列标注模型采用对预训练语言模型微调的方法进行构建,首先使用大规模无标记文本语料学习得到预训练语言模型,并在预训练阶段引入词边界特征。(4)将使用规则匹配的数据内容替换为其对应的规则模板标签,以完成规则匹配与深度网络的融合。(5)根据有标记的训练数据,在预训练语言模型上进行微调,将其迁移到命名实体的序列标注任务上。本发明可以有效提取文本上下文语义特征,并且在复杂信息类别的场景下有效地识别各个信息种类。
技术领域
本发明涉及一种基于预训练语言模型的中文文本关键信息抽取方法,属于自然语言处理识别技术领域。
背景技术
文本关键信息抽取指根据具体业务的需求,对文本中指定的关键数据类型进行识别和抽取。主要包括对命名实体(Named Entity)的识别和一些特定类型的数字串、字符串的识别。命名实体的识别问题可以使用基于深度学习的序列标注模型较好的解决,但无法同时解决其它数字串、字符串的识别需求。因为,数字串无法携带有效的语义信息,且多种数字串之间会相互干扰。
现有效果较为出色的中文命名实体识别方法大都基于循环神经网络(RecurrentNeural Network,RNN)的字标注模型,这种方法首先需要利用自然语言语料无监督地训练得到汉字的分布式表示,得到每个汉字在语义空间中的向量表示。然后,使用循环神经网络(RNN)或其变种长短时记忆网络(LSTM、GRU)等,对文本序列进行建模,抽取字与字、词与词之间的语义及语法特征表示。最后,对循环神经网络得到的特征提取结果,使用条件随机场(CRF)对序列中隐状态之间的转移规则做进一步约束,强化特征转移。训练得到一个基于字符的命名实体识别深度学习模型。
但是,基于传统的word2vec方法学得的词表示,将每个单词的上下文信息限制在一个较小的固定大小的窗口内,无法学得全文单词之间的长距离依赖关系,只能将语义关系建模在一个小范围的上下文内。并且,传统的词嵌入(word embedding)方法,将每个词保存为一条静态向量,即每个词只能占用一个语义空间中的位置,此时不同上下文的信息都会被编码到同一个参数空间中,导致传统词嵌入无法解决多义词问题。因为多义词的现象在实际应用场景中十分常见,必须动态地根据上下文环境的变化,给出不同的语义表示。例如:一名叫做武汉市的男子给儿子取名为武昌。显然在这里的语境中,“武汉市”与“武昌”不再是地名实体,而变为了人名实体。
而且,基于字符的中文命名实体识别模型,完全摒弃了中文词边界特征,命名实体的边界一般也是词边界。完全基于字符的模型,丧失了中文词边界内蕴含的语义信息。不利于中文文本的语义表示,进而影响命名实体识别的准确率。
发明内容
发明目的:针对传统方法中无法解决一词多义以及词边界信息缺失等问题,本发明提出了一种基于预训练语言模型的关键信息抽取方法。基于现有序列标注方法进行的改进优化,更好地获得对中文文本的语义表示,以此强化深度学习模型的表达能力,进而更好地为中文命名实体识别任务服务。本发明深度融合规则匹配与深度模型,可以有效提取文本上下文语义特征,并且在复杂信息类别的场景下有效地识别各个信息种类,取得很好的识别效果。在内部数据集上的F1值超过传统基于BiLSTM-CRF的命名实体识别方法2个多百分点。
技术方案:一种基于预训练语言模型的中文文本关键信息抽取方法,包括如下步骤:
步骤(1):将待抽取的中文文本关键信息分类进行识别,对命名实体类别使用深度学习模型进行识别;对可以归纳组成规则的信息类别(如数字串和字符串),使用正则匹配的方法识别。对基于规则匹配方法进行识别的信息类别,归纳出其内部组成结构,编写相应的规则模板,并为每一个类别设置对应的标签名;
步骤(2):基于任务文本环境,收集大规模无标记的文本语料;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010460134.7/2.html,转载请声明来源钻瓜专利网。





