[发明专利]一种基于Bert语言模型的中文写作短语推荐方法在审
| 申请号: | 202210565638.4 | 申请日: | 2022-05-23 |
| 公开(公告)号: | CN114996546A | 公开(公告)日: | 2022-09-02 |
| 发明(设计)人: | 盛泽宇;董启文;兰韵诗;钱卫宁;周傲英 | 申请(专利权)人: | 华东师范大学 |
| 主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F40/289;G06F40/166;G06N3/08 |
| 代理公司: | 上海蓝迪专利商标事务所(普通合伙) 31215 | 代理人: | 徐筱梅;张翔 |
| 地址: | 200241 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 bert 语言 模型 中文 写作 短语 推荐 方法 | ||
1.一种基于Bert语言模型的中文写作短语推荐方法,其特征在于,该方法包括以下具体步骤:
步骤1:获取网络上的现代文长短文语料
在网络上爬取长短小说文本及新闻文本,对爬取到的文本进行分句,并进行基础的数据清洗,整理成为整洁规范的句子级别的文本数据;
步骤2:获取常用的短语及成语
同时在网络上搜集常用的中文短语及成语,按照词性类别进行爬取,保存并按照词性类别进行归档,得到常用短语集;
步骤3:构建短语遮蔽文本预测任务的数据集
将步骤2中得到的短语集与步骤1中处理得到的句子级别文本数据进行匹配,提取出包含短语集中短语的句子;基于匹配提取得到的句子,构建短语遮蔽文本预测任务的数据集,并按照8:1:1的比例,划分出训练集、验证集和测试集;
步骤4:对短语字典和类别字典进行向量化
对步骤2的短语集,构建一个向量化的字典;每个短语对应一个向量化的表征;对步骤2的短语集中的每一个类别,构建一个向量化的字典,每个类别同时对应一个向量化的表征,对所述两个向量化字典进行随机初始化;
步骤5:训练基于Bert的遮蔽短语预测模型
构建一个基于Bert的遮蔽短语预测模型,使用步骤3中构建的训练集对模型进行训练,通过Adam优化器反向传播更新模型的参数,每次更新参数后计算模型在步骤3的验证集上计算模型的预测损失,重复上述过程直到验证集上模型的预测损失不再下降,保存此时的模型;
步骤6:使用短语预测模型对用户进行短语推荐
在步骤5保存的模型中,增加接受用户输入和格式化输出模型预测结果的功能,得到模型预测的类别概率和概率值前k的类别下的每个短语的预测概率,并按照短语预测概率值排序,取前o个短语作为该类别下的预测短语推荐给用户。
2.根据权利要求1所述的基于Bert语言模型的中文写作短语推荐方法,其特征在于,步骤1所述对爬取的文本进行分句,具体包括:
2-1:采用标点符号为基础的分句方法,将步骤1中篇章级别文本切割为句子;
2-2:对2-1中按照标点符号切分的句子,其长度超过预设值len,对其进行切割,保证每句句子长度不超过len;
2-3:将经过2-2处理的句子全部统一归档,得到整洁的句子级别文本数据。
3.根据权利要求1所述的基于Bert语言模型的中文写作短语推荐方法,其特征在于,步骤2所述按照词性类别进行归档,具体包括:
3-1:将短语按照词性划分为十大类别,具体包括代词、动词、副词、介词、连词、名词、数量词、形容词、疑问词及助词。
4.根据权利要求1所述的基于Bert语言模型的中文写作短语推荐方法,其特征在于,步骤3所述构建短语遮蔽文本预测任务的数据集,具体包括:
4-1:对与短语集匹配后得到的句子,将句子中包含的目标短语遮蔽,用“[MASK]”进行替代;
4-2:对词性类别进行标签转换,将类别映射到数字表示的标签,并对4-1中每一句句子包含的目标短语对应的类别,记录所对应的数字,作为短语词性类别标签;
4-3:对步骤2中短语集中所有的短语进行标签转换,将短语映射到数字表示的标签,构成短语到数字的映射;
4-4:对4-1中的每条句子,从短语集中随机选择m-1个不包含句子中原来包含短语的短语列表,与句子中原来包含的短语共同构成大小为m的短语候选列表,并将短语映射为4-3中所述的短语到数字的标签;
4-5:对上述生成的由句子和标签组成的数据集进行划分,按照8:1:1的比例将数据集划分出训练集、验证集和测试集。
5.根据权利要求1所述的基于Bert语言模型的中文写作短语推荐方法,其特征在于,所述步骤4,具体为:
5-1:对于步骤2中归档的短语集,构建一个向量化的字典,每个短语对应一个向量化的表征,维度为dw维,并对每个表征进行随机初始化;
5-2:对于步骤2中归档的短语集中的每一个类别,构建一个向量化的字典,每个类别同时对应一个向量化的表征,维度为dc维,并对每个表征进行随机初始化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210565638.4/1.html,转载请声明来源钻瓜专利网。





