[发明专利]一种基于Bert语言模型的中文写作短语推荐方法在审

专利信息
申请号: 202210565638.4 申请日: 2022-05-23
公开(公告)号: CN114996546A 公开(公告)日: 2022-09-02
发明(设计)人: 盛泽宇;董启文;兰韵诗;钱卫宁;周傲英 申请(专利权)人: 华东师范大学
主分类号: G06F16/951 分类号: G06F16/951;G06F40/289;G06F40/166;G06N3/08
代理公司: 上海蓝迪专利商标事务所(普通合伙) 31215 代理人: 徐筱梅;张翔
地址: 200241 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 bert 语言 模型 中文 写作 短语 推荐 方法
【说明书】:

发明公开了一种基于Bert语言模型的中文写作短语推荐方法,该方法包括:获取网络上的现代文长短文语料;根据类别获取写作中常用的短语及成语;构造基于短语的Bert掩蔽文本预测任务数据;基于现有的中文预训练Bert模型进行基于表征的短语预测任务训练;将存在空缺等待填入短语的句子输入到短语预测模型中,得到模型推断的短语词性类别及对应类别下推荐出的短语结果。本发明与现有技术相比充分利用了语言模型的知识,基于上下文对待填写的短语进行推荐,同时结合文本的中文句法结构,以及前后文所蕴含的语义语境信息,构建短语的表征,提高短语预测模型的精度,推荐更加准确且合适的短语,对中文写作辅助训练和中文语言学习具有很高的价值。

技术领域

本发明涉及自然语言处理领域,尤其涉及基于Bert的上下文语义与句法信息融合的基于向量化表征的短语推荐方法。

背景技术

互联网时代文本信息大量产生,例如每天各个行业如新媒体行业,新闻行业中蕴含大量有效的文本信息,获取这些数据进行挖掘,通过半监督和监督学习对其进行学习,从而衍生出了现在各种各样的语言模型。Bert作为一种双向Transformer的语言模型就是通过NSP和MLM两个自监督任务进行整体模型的学习。中文成为了很多人的基本学习语言,而中文语言相较于其他语言不仅组合模式多种多样,字形字音也时常有特定的意义,并且中文的词语短语中细分了很多种类,不同的语境下选用什么词语进行语义的表达也值得思考,因此很多初学者在一开始学习中文较为吃力。通过造句或者写作,是帮助语言学习者理解语义,语法的较为有效的方式。这就可以借助自然语言理解中的语言模型技术,来建模整个语句,针对不同的任务进行训练。随着深度学习技术的发展,文本表示模型可以使用word2vec、glove等分布式表示的语言模型,并使用神经网络进行信息提取和分类。近年来,注意力机制的提出和广泛使用,提升了语言模型的效果。但是仍然存在一些不足:

1)语言模型资源消耗大

现有的模型为了基于大规模语料建模语言模型,通常需要大量的参数致使模型的参数量巨大,且计算资源耗费较大,适应下游任务时需要额外的微调,又需要优化大量的参数,这对资源和时间有着较高的要求。

2)没有有效的短语预测模型

目前大多数的语言模型在进行下游任务时,大多关注一些分类问题,而没有一种方法,关注短语级别的语言预测方法,短语由多个字组成,需要特殊的处理方式,如何确定语言序列中一个位置的短语,需要多方面的考量。

发明内容

本发明的目的是针对现有技术的不足而提供的一种基于Bert语言模型的中文写作短语推荐方法,结合self-attention机制,使用基于词嵌入的短语表示方法,结合上下文的语义语境,同时关注语法结构的信息,提升短语的预测准确率,得到一个结合语义同时融合了语法知识的表征用于写作短语推荐的方法。

实现本发明目的的具体技术方案是:

一种基于Bert语言模型的中文写作短语推荐方法,该方法包括以下具体步骤:

步骤1:获取网络上的现代文长短文语料

在网络上爬取长短小说文本及新闻文本,爬取到的文本是基于段落和篇章级别的语料,对爬取到的文本进行分句,并进行基础的数据清洗,整理成为整洁规范的句子级别的文本数据;

步骤2:获取常用的短语及成语

同时在网络上搜集常用的中文短语及成语,按照词性类别进行爬取,保存并按照词性类别进行归档,得到常用短语集;

步骤3:构建短语遮蔽文本预测任务的数据集

将步骤2中得到的短语集与步骤1中处理得到的句子级别文本数据进行匹配,提取出包含短语集中短语的句子;基于匹配提取得到的句子,构建短语遮蔽文本预测任务的数据集,并按照8:1:1的比例,划分出训练集、验证集和测试集;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210565638.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top