[发明专利]一种基于预训练模型的伦理行为抽取方法在审
| 申请号: | 202111512041.5 | 申请日: | 2021-12-07 |
| 公开(公告)号: | CN114385824A | 公开(公告)日: | 2022-04-22 |
| 发明(设计)人: | 古天龙;冯旋;李龙;李晶晶;郝锋锐 | 申请(专利权)人: | 暨南大学;桂林电子科技大学 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/951;G06N5/02;G06N20/00;G06F40/289 |
| 代理公司: | 桂林文必达专利代理事务所(特殊普通合伙) 45134 | 代理人: | 张学平 |
| 地址: | 510632 广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 训练 模型 伦理 行为 抽取 方法 | ||
本发明涉及人工智能伦理技术领域,尤其涉及一种基于预训练模型的伦理行为抽取方法,首先以涵盖伦理道德和人类行为的社会新闻为数据源,构建社会新闻数据集,并使用众包方法对数据集进行标注,再利用具有双向Transformer结构的中文预训练语言模型ERNIE,经过微调的模型编码了实体知识信息,从大量的社会新闻数据中准确的抽取伦理行为,此外预训练模型在标记数据稀缺时准确提取数据的重要特征,能够提高任务的整体性能,解决了中文语境下单词边界和组成成分的不确定性。
技术领域
本发明涉及人工智能伦理技术领域,尤其涉及一种基于预训练模型的伦理行为抽取方法。
背景技术
随着科技水平的不断发展,人工智能技术已经广泛应用到无人驾驶、智能家居、医疗护理等诸多领域。在为生活带来巨大便利的同时,如何保证这些自主智能机器能够做出合乎伦理的行为变得愈发重要。伴随着人们对技术的依赖程度越来越深,以及伦理问题不断出现,人工智能伦理也在不断的受到学术界和工业界的重视。
为了使技术更好的为人类服务,自主系统需要理解人类用户发出的指令,并具备对指令中行为的识别、理解及判别的能力,才能在现实世界中安全部署部署:识别用户指令中的每一个行为,理解特定环境的伦理道德规范,理解行为背后的社会、文化和伦理含义,判别该行为是否符合伦理道德、是否应该去执行。
目前伦理行为判别的方法都使用文本分类等自然语言处理技术来检测场景中包含的伦理场景或行为的整体伦理极性。但是,上述方法有一定的局限性:他们只考虑句子的整体极性或只考虑句子中包含的行为在句子层面是否合乎道德,而识别多种行为及其道德极性更具挑战性。
发明内容
本发明的目的在于提供一种基于预训练模型的伦理行为抽取方法,旨在识别并抽取出文本中所有的行为,为伦理理解及判别任务提供更细粒度的特征,解决中文语境下单词边界和组成成分的不确定性。
为实现上述目的,本发明提供了一种基于预训练模型的伦理行为抽取方法,包括下列步骤:
构建数据集;
任务数据预处理,映射到索引;
为词向量嵌入常识知识,生成文本的特征向量序列;
编码标注出所述文本特征向量序列中的行为;
训练获得所需的伦理行为判别模型;
实现模型预测模块。
其中,构建数据集的过程,包括下列步骤:
使用爬虫工具爬取数据源;
滤出社会新闻;
约束筛选所述社会新闻;
对筛选出的数据标注处理;
比例划分数据集。
其中,任务数据预处理的过程,包括下列步骤:
加入特殊标识符;
对每个句子按字进行分词;
去停用词;
转换序列,获得本地词汇表;
构建字典,将词映射到索引。
其中,在为词向量嵌入常识知识,生成文本的特征向量序列的过程中,利用构建好的数据集,再结合语言模型中特征抽取、特征选择等技术构建伦理行为判别模型,用使用信息实体的增强语言表示对输入文本进行编码,抽取和编码知识信息,将知识模型中的实体表征整合到语义模型的底层中,结合大规模无监督语料库和知识图谱进行预训练,生成文本的特征向量序列。
其中,利用具有双向Transformer结构的中文预训练语言模型ERNIE对输入文本进行编码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于暨南大学;桂林电子科技大学,未经暨南大学;桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111512041.5/2.html,转载请声明来源钻瓜专利网。





