[发明专利]一种基于神经网络和幽默特征的幽默识别方法有效

专利信息
申请号: 201810496016.4 申请日: 2018-05-22
公开(公告)号: CN108874896B 公开(公告)日: 2020-11-06
发明(设计)人: 林鸿飞;樊小超;杨亮;刁宇峰;申晨;楚永贺;任璐;张桐瑄 申请(专利权)人: 大连理工大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/30;G06F40/247;G06F40/289;G06N3/04
代理公司: 大连智高专利事务所(特殊普通合伙) 21235 代理人: 刘斌
地址: 116023 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 神经网络 幽默 特征 识别 方法
【权利要求书】:

1.一种基于神经网络和幽默特征的幽默识别方法,其特征在于,包括以下步骤:

S1、幽默语料采集及预处理步骤:

a1、幽默语料采集:从网站上获取幽默的文本以及文本的评价信息;对文本ID进行编号作为文本的唯一标识;采集网站幽默的内容作为幽默文本候选集;从所述网站获取文本幽默的评价信息作为衡量文本幽默程度的标准;采集其他形式的文本作为非幽默文本的候选集,幽默语料为单句;

a2、预处理步骤:对幽默文本候选集和非幽默文本候选集进行数据清洗,删除文本中的特殊字符和不可识别字符;标注幽默文本;根据句子长度相近和正负例所用词典一致原则从非幽默文本候选集中选取非幽默文本;对幽默文本和非幽默文本进行分词处理;

S2、幽默特征提取步骤:

b1、幽默的语音特征提取:对步骤S1得到的句子的词语集合,利用发音词典,提取句子的幽默语音特征向量P;

b2、幽默的不一致性特征提取:对步骤S1得到的句子的词语集合,利用语义资源和词向量工具,提取幽默句子不一致性的特征向量Q;

S3、基于神经网络的文本的词向量表示步骤:

c1、词向量获取:获取语料,包括维基百科语料和笑话语料,作为训练词向量的语料集,使用词向量工具训练词向量,从而得到幽默文本和非幽默文本中每个词的低维稠密向量;

c2、文本的词向量表示:利用c1获取的词向量将步骤S1得到的幽默句子和非幽默句子表示为n×m×d的词嵌入式矩阵,n为样本的数量,m为每个样本包含的单词数量,d为词向量的维度;

c3、模糊性特征词抽取:对步骤S1得到的每个句子的词语集合,利用语义资源提取同义词集合Synseti={synset1,synset2,…,synsetj,…,synsetn},i为句子中的第i个单词,n为同义词集个数,synsetj为同义词语意单元;利用同义词语意资源由synsetj得到每个同义词集的意义相近的单词集合synWordsi={W11,W12,…,W1m,…,Wn1,…,Wnm},m为synsetj的同义词数量,去除synWordsi重复单词,计算句子中synWordsi最多的单词,句子中拥有近义词数量最多的单词作为幽默的模糊性特征词;

c4、模糊性特征词向量表示:每个句子可能抽取出一个或多个有关幽默的模糊性特征的单词,若句子只包含一个特征词,则利用有关词向量方法和c1获取的词向量将特征词表示为向量形式T;若句子中包含多个特征词,则使用它们的平均词向量作为模糊性特征词向量;

S4、神经网络模型构建步骤:

d1、模型的输入:根据步骤c4得到的幽默的模糊性特征词向量T,将其与句子中的每一个单词的词向量wt进行拼接,作为模型的输入词向量;

d2、构建幽默识别模型:利用循环神经网络提取d1中得到的输入的潜在语义特征,得到文本的隐层向量表示;

d3、注意力机制幽默识别:采用注意力机制进行幽默识别,加大模糊性特征词及其周围词的权重,提高幽默识别的性能;

d4、计算句子的平均词向量表示:根据步骤d3得到的幽默句子的隐层表示,计算句子的平均词向量表示;

d5、融合幽默特征:将步骤b1中提取的幽默的语音特征和步骤b2提取的幽默的不一致性特征与步骤d4得到的句子的平均词向量表示进行拼接,得到句子的向量表示;

d6、幽默识别:根据步骤d5得到的幽默句子的隐层表示s,计算句子是否是幽默语句的概率,从而最终判断给定的句子是幽默文本或非幽默文本;

S5、幽默识别结果评价步骤:根据评价指标对幽默识别的结果进行评价。

2.根据权利要求1所述的一种基于神经网络和幽默特征的幽默识别方法,其特征在于,步骤a2,所述的标注幽默文本为:根据幽默评价信息,将评价得分较高的文本自动标注为幽默文本,即正例,并对自动标注信息进行人工审核。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810496016.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top