[发明专利]基于反向翻译的中文幽默分类模型在审
申请号: | 202110088848.4 | 申请日: | 2021-01-22 |
公开(公告)号: | CN112818118A | 公开(公告)日: | 2021-05-18 |
发明(设计)人: | 孙世昶;孟佳娜;刘玉宁;朱彦霖 | 申请(专利权)人: | 大连民族大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/58;G06F40/268;G06N3/04;G06N3/08 |
代理公司: | 大连智高专利事务所(特殊普通合伙) 21235 | 代理人: | 李猛 |
地址: | 116600 辽宁省*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 反向 翻译 中文 幽默 分类 模型 | ||
基于反向翻译的中文幽默分类模型,属于自然语言处理领域,包括:S1.文本输入层;S2.BERT嵌入层;S3.汉语拼音特征嵌入层;S4.文本词性特征嵌入层;S5.特征融合层;S6.BiGRU层;S7.全连接层,最终由全连接层完成对中文文本幽默的分类输出;有益效果是:在基于反向翻译技术结合语言学幽默理论的方法基础上,提出了基础模型BERT‑BiGRU‑Softmax对中文文本幽默进行分类研究,并在模型中逐步加入不同的幽默特征,实现特征融合模型BERT+POS+Homophony‑BiGRU‑Softmax,该模型对最终判断中文文本是否为幽默是有效果的。
技术领域
本发明属于自然语言处理领域,涉及一种基于反向翻译的中文幽默分类模型。
背景技术
幽默,情感表达的重要方式之一,一直伴随着人们的生活。随着国家科技的飞速发展 和互联网以及通讯设备的大规模普及,互联网以及人工智能领域的应用正由“阅读式”向“交 互式”进行着剧烈的转变。幽默“交互式”同样应运而生。幽默不仅可以给人们带来快乐, 同时也会提高社交能力以及工作效率等。目前,“交互式”应用代表——聊天机器人,大多 是收集各种网络资源然后进行整合信息从而与服务对象进行交互,而具备幽默功能的聊天机 器人却是寥寥无几,这样的聊天机器人是没有“温度的”,聊天机器人不应该仅仅是机械式 的机器人,还应该具有人性化思维,知冷暖,通表达,即应该具备幽默的能力。“幽默”对 于聊天机器人有着特殊的意义。因此聊天服务机器人需要具备并理解说话者的幽默成分,要 达到这一功能的实现基础就是使聊天服务机器人可以对语句进行幽默分类。
中文文本幽默分类任务是国内自然语言处理领域的一个重要研究领域,该领域的技术主 要涉及认知科学、语言学、机器学习以及信息检索等技术,近年来在国内外的发展也是逐渐 火热。中文文本幽默分类的研究工作主要是将文本中所表达的话语,按照表达者的态度或幽 默倾向性将文本划分为幽默与非幽默的研究。
幽默分类这一任务的研究最早起源于西方国家,经过多年的研究与发展,幽默分类任务 已经成为自然语言处理的一项热门的研究,国外研究学者对这一任务的研究有些已经逐渐趋 于成熟。世界上第一次提出幽默理论的是Raskin,他在1985年提出了幽默的语义脚本理 论(SSTH),这成为了人工智能在幽默计算分析的基础理论,也是奠基石。随后,Attardo 和Raskin基于Raskin基础理论的扩展和修正,提出了言语幽默的一般理论,即六个主要的 幽默元素:脚本对立、逻辑机制、情境、对象、叙述策略和幽默言语,并从具体到抽象划 分为6个不同的等级,这对于幽默理论的发展有着重要的意义。随着人工智能技术的逐步发 展,高性能的深度神经网络模型对数据规模的要求也逐步提升,均需要大数据量、高质量的 训练集支撑。然而,现在公开的很多领域的数据集,比如情感分类,命名实体识别,图像分 析等领域,都存在高质量的数据集不足导致不能更好的匹配高性能的模型的问题,因此数据 增强技术就应运而生。
近年来,由于自然语言处理领域同样存在文本数据训练集不足或者训练样本质量不高的 情况,因此数据增强技术也广泛的应用在自然语言处理领域。其中,很多研究学者受到生成 对抗网络,GAN在图像处理上成功的启发,将GAN网络应用到文本数据增强任务中。2019 年OpenAI对GPT-2模型的提出以及中文GPT-2[28]的改进,对数据增强在自然语言处理领 域中产生了积极地影响。目前,数据增强技术在自然语言处理领域的方法主要有噪声,EDA 以及反向翻译等方法,在不同领域取得了优秀的效果。
不同的幽默语句在不同的人眼中所代表的幽默性是不一样的,它需要交流识别者具备大 量的知识背景的储备。目前,在幽默分类识别领域的研究中,较少的使用了语言学的幽默理 论基础,没有将理论与深度学习很好的结合在一起。因此,如何更好的结合语言学幽默理论 特征来提取文本中的幽默特征,追溯到幽默的本源来完成幽默分类任务是一大挑战。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连民族大学,未经大连民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110088848.4/2.html,转载请声明来源钻瓜专利网。