[发明专利]一种基于预训练模型的伦理行为抽取方法在审
| 申请号: | 202111512041.5 | 申请日: | 2021-12-07 |
| 公开(公告)号: | CN114385824A | 公开(公告)日: | 2022-04-22 |
| 发明(设计)人: | 古天龙;冯旋;李龙;李晶晶;郝锋锐 | 申请(专利权)人: | 暨南大学;桂林电子科技大学 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/951;G06N5/02;G06N20/00;G06F40/289 |
| 代理公司: | 桂林文必达专利代理事务所(特殊普通合伙) 45134 | 代理人: | 张学平 |
| 地址: | 510632 广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 训练 模型 伦理 行为 抽取 方法 | ||
1.一种基于预训练模型的伦理行为抽取方法,其特征在于,包括下列步骤:
构建数据集;
任务数据预处理,映射到索引;
为词向量嵌入常识知识,生成文本的特征向量序列;
编码标注出所述文本特征向量序列中的行为;
训练获得所需的伦理行为判别模型;
实现模型预测模块。
2.如权利要求1所述的基于预训练模型的伦理行为抽取方法,其特征在于,
构建数据集的过程,包括下列步骤:
使用爬虫工具爬取数据源;
滤出社会新闻;
约束筛选所述社会新闻;
对筛选出的数据标注处理;
比例划分数据集。
3.如权利要求2所述的基于预训练模型的伦理行为抽取方法,其特征在于,
任务数据预处理的过程,包括下列步骤:
加入特殊标识符;
对每个句子按字进行分词;
去停用词;
转换序列,获得本地词汇表;
构建字典,将词映射到索引。
4.如权利要求1所述的基于预训练模型的伦理行为抽取方法,其特征在于,
在为词向量嵌入常识知识,生成文本的特征向量序列的过程中,利用构建好的数据集,再结合语言模型中特征抽取、特征选择等技术构建伦理行为判别模型,用使用信息实体的增强语言表示对输入文本进行编码,抽取和编码知识信息,将知识模型中的实体表征整合到语义模型的底层中,结合大规模无监督语料库和知识图谱进行预训练,生成文本的特征向量序列。
5.如权利要求4所述的基于预训练模型的伦理行为抽取方法,其特征在于,
利用具有双向Transformer结构的中文预训练语言模型ERNIE对输入文本进行编码。
6.如权利要求5所述的基于预训练模型的伦理行为抽取方法,其特征在于,
所述中文预训练语言模型ERNIE包括文本编码器和知识编码器,所述文本编码器从输入的文本中捕捉词汇和语义信息,所述知识编码器将知识图谱中的知识信息融合到输出的词向量中。
7.如权利要求1所述的基于预训练模型的伦理行为抽取方法,其特征在于,
编码标注出所述文本特征向量序列中的行为,具体为把文本特征向量序列送入至CRF模型进行解码,通过CRF模型的计算得到的预测标签序列,最后,使用维特比算法进行解码,标注出所述文本特征向量序列中的行为。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于暨南大学;桂林电子科技大学,未经暨南大学;桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111512041.5/1.html,转载请声明来源钻瓜专利网。





