[发明专利]一种基于神经网络和幽默特征的幽默识别方法有效
申请号: | 201810496016.4 | 申请日: | 2018-05-22 |
公开(公告)号: | CN108874896B | 公开(公告)日: | 2020-11-06 |
发明(设计)人: | 林鸿飞;樊小超;杨亮;刁宇峰;申晨;楚永贺;任璐;张桐瑄 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30;G06F40/247;G06F40/289;G06N3/04 |
代理公司: | 大连智高专利事务所(特殊普通合伙) 21235 | 代理人: | 刘斌 |
地址: | 116023 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于神经网络和幽默特征的幽默识别方法,属于数据挖掘和自然语言处理领域,用以解决进行幽默识别的问题,要点是包括S1、幽默语料采集及预处理;S2、幽默特征提取;S3、文本的词向量表示;S4、神经网络模型构建;S5、幽默识别结果评价,效果是:对特定形式的幽默数据进行采集和预处理,根据相关成熟的幽默理论,充分考虑到幽默文本的语音特性,构造幽默的语音特征;利用幽默的模糊性特性,提取了句子中拥有同义词最多的词作为特征词并对其进行向量化;采用了深度学习方法,提取了幽默文本背后深层次的语义特征,并将幽默的语音特征和模糊性特征融合到神经网络当中,从而进行幽默识别,在数据集上的实验验证了本发明方法对幽默识别的有效性。 | ||
搜索关键词: | 一种 基于 神经网络 幽默 特征 识别 方法 | ||
【主权项】:
1.一种基于神经网络和幽默特征的幽默识别方法,其特征在于,包括以下步骤:S1、幽默语料采集及预处理步骤:a1、幽默语料采集:从网站上获取幽默的文本以及文本的评价信息;对文本ID进行编号作为文本的唯一标识;采集网站幽默的内容作为幽默文本候选集;从所述网站获取文本幽默的评价信息作为衡量文本幽默程度的标准;采集其他形式的文本作为非幽默文本的候选集,幽默语料为单句;a2、预处理步骤:对幽默文本候选集和非幽默文本候选集进行数据清洗,删除文本中的特殊字符和不可识别字符;标注幽默文本;根据句子长度相近和正负例所用词典一致原则从非幽默文本候选集中选取非幽默文本;对幽默文本和非幽默文本进行分词处理;S2、幽默特征提取步骤:b1、幽默的语音特征提取:对步骤S1得到的句子的词语集合,利用发音词典,提取句子的幽默语音特征向量P;b2、幽默的不一致性特征提取:对步骤S1得到的句子的词语集合,利用语义资源和词向量工具,提取幽默句子不一致性的特征向量Q;S3、基于神经网络的文本的词向量表示步骤:c1、词向量获取:获取语料,包括维基百科语料和笑话语料,作为训练词向量的语料集,使用词向量工具训练词向量,从而得到幽默文本和非幽默文本中每个词的低维稠密向量;c2、文本的词向量表示:利用c1获取的词向量将步骤S1得到的幽默句子和非幽默句子表示为n×m×d的词嵌入式矩阵,n为样本的数量,m为每个样本包含的单词数量,d为词向量的维度;c3、模糊性特征词抽取:对步骤S1得到的每个句子的词语集合,利用语义资源提取同义词集合Synseti={synset1,synset2,…,synsetj,…,synsetn},i为句子中的第i个单词,n为同义词集个数,synsetj为同义词语意单元;利用同义词语意资源由synsetj得到每个同义词集的意义相近的单词集合synWordsi={W11,W12,…,W1m,…,Wn1,…,Wnm},m为synsetj的同义词数量,去除synWordsi重复单词,计算句子中synWordsi最多的单词,句子中拥有近义词数量最多的单词作为幽默的模糊性特征词;c4、模糊性特征词向量表示:每个句子可能抽取出一个或多个有关幽默的模糊性特征的单词,若句子只包含一个特征词,则利用有关词向量方法和c1获取的词向量将特征词表示为向量形式T;若句子中包含多个特征词,则使用它们的平均词向量作为模糊性特征词向量;S4、神经网络模型构建步骤:d1、模型的输入:根据步骤c4得到的幽默的模糊性特征词向量T,将其与句子中的每一个单词的词向量wt进行拼接,作为模型的输入词向量;d2、构建幽默识别模型:利用循环神经网络提取d1中得到的输入的潜在语义特征,得到文本的隐层向量表示;d3、注意力机制幽默识别:采用注意力机制进行幽默识别,加大模糊性特征词及其周围词的权重,提高幽默识别的性能;d4、计算句子的平均词向量表示:根据步骤d3得到的幽默句子的隐层表示,计算句子的平均词向量表示;d5、融合幽默特征:将步骤b1中提取的幽默的语音特征和步骤b2提取的幽默的不一致性特征与步骤d4得到的句子的平均词向量表示进行拼接,得到句子的向量表示;d6、幽默识别:根据步骤d5得到的幽默句子的隐层表示s,计算句子是否是幽默语句的概率,从而最终判断给定的句子是幽默文本或非幽默文本;S5、幽默识别结果评价步骤:根据评价指标对幽默识别的结果进行评价。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810496016.4/,转载请声明来源钻瓜专利网。
- 上一篇:交互信息推送方法、装置、计算机设备及存储介质
- 下一篇:数据查询方法及装置