[发明专利]文本分类样本的构建方法和文本分类模型的训练方法有效
| 申请号: | 202011593010.2 | 申请日: | 2020-12-29 |
| 公开(公告)号: | CN112711660B | 公开(公告)日: | 2023-09-26 |
| 发明(设计)人: | 唐永鹏;刘硕凌;梁植斌;李正非;徐思文 | 申请(专利权)人: | 易方达基金管理有限公司 |
| 主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/35;G06F40/258;G06F18/214 |
| 代理公司: | 北京英特普罗知识产权代理有限公司 11015 | 代理人: | 程超 |
| 地址: | 519000 广东省珠海市横琴新*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 分类 样本 构建 方法 模型 训练 | ||
1.一种文本分类样本的构建方法,其特征在于,包括:
获取训练文本集,其中,所述训练文本集中包括多个训练文本;
将所述训练文本转化为输入向量;
对所述训练文本集中第一数量的训练文本进行分类结果标注,以得到训练样本集,其中,所述训练样本集包括所述第一数量的训练样本,所述训练样本包括输入向量和分类结果的对应关系,所述分类结果包括对应的所述训练文本所属的一级标签和二级标签,所述二级标签属于在所述一级标签下进一步分类的标签;
将所述训练样本集中的所述输入向量作为预训练模型的输入,根据对应的一级标签构建预训练模型的输出向量,对所述预训练模型进行训练,以得到第一分类模型;
将所述训练样本集中的所述输入向量作为预训练模型的输入,根据对应的二级标签构建预训练模型的输出向量,对所述预训练模型进行训练,以得到第二分类模型;
获取所述训练文本集中所述训练样本集之外的训练文本,作为扩充文本;
将所述扩充文本对应的输入向量分别输入至所述第一分类模型和所述第二分类模型,以得到所述第一分类模型输出的一级标签概率向量和所述第二分类模型输出的二级标签概率向量;
计算所述二级标签概率向量中每个元素与所述一级标签概率向量中对应元素的乘积;
根据所述二级标签概率向量中每个元素对应乘积的大小,确定所述扩充文本对应的分类结果;
将所述扩充文本对应的输入向量和分类结果加入至所述训练样本集。
2.根据权利要求1所述的文本分类样本的构建方法,其特征在于,将所述训练文本转化为输入向量的步骤包括:
提取所述训练文本的标题,以得到标题文本;
确定所述训练文本的来源,以得到来源文本;
构建所述训练文本的摘要,以得到摘要文本;
根据所述标题文本、所述来源文本和所述摘要文本得到所述输入向量。
3.根据权利要求2所述的文本分类样本的构建方法,其特征在于,构建所述训练文本的摘要,以得到摘要文本的步骤包括:
在所述标题文本、所述来源文本和所述训练文本的正文中,提取满足预设条件的多个关键词;
根据所述关键词的词频和所述关键词的位置权重,计算每个所述关键词的重要度;
根据所述重要度在所述多个关键词中确定目标关键词;
在所述训练文本的正文中,提取包括所述目标关键词的内容作为所述摘要,以得到所述摘要文本。
4.根据权利要求3所述的文本分类样本的构建方法,其特征在于,
所述一级标签和所述二级标签均为基于ESG信息设置的标签;
在所述标题文本、所述来源文本和所述训练文本的正文中,提取满足预设条件的多个关键词的步骤包括:在所述标题文本、所述来源文本和所述训练文本的正文中,提取公司名和地名;
根据所述标题文本、所述来源文本和所述摘要文本得到所述输入向量的步骤包括:将所述标题文本、所述来源文本和所述摘要文本中的公司名和地名分别替换为占位符;将替换占位符后的标题文本、来源文本和摘要文本拼接,得到所述输入向量。
5.根据权利要求2所述的文本分类样本的构建方法,其特征在于,
根据所述二级标签概率向量中每个元素对应乘积的大小,确定所述扩充文本对应的分类结果的步骤包括:当所述二级标签概率向量中每个元素对应乘积均大于预设阈值时,将最大乘积对应的一级标签和二级标签,作为所述扩充文本对应的分类结果;
和/或
所述文本分类样本的构建方法还包括:将所述训练样本集通过回译、同义词替换、句子扩充和句子缩写中任意一种或多种方式进行扩充。
6.一种文本分类模型的训练方法,其特征在于,包括:
采用权利要求1至5中任一项所述的文本分类样本的构建方法构建训练集;
将所述训练集中的输入向量作为预训练模型的输入,根据对应的一级标签构建预训练模型的输出向量,对所述预训练模型进行训练,以得到一级分类模型;
将所述训练集中的输入向量作为预训练模型的输入,根据对应的二级标签构建预训练模型的输出向量,对所述预训练模型进行训练,以得到二级分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于易方达基金管理有限公司,未经易方达基金管理有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011593010.2/1.html,转载请声明来源钻瓜专利网。





