[发明专利]短文本内容分类方法和系统有效
申请号: | 201810447731.9 | 申请日: | 2018-05-11 |
公开(公告)号: | CN108595440B | 公开(公告)日: | 2022-03-18 |
发明(设计)人: | 赵建强;申强;江汉祥 | 申请(专利权)人: | 厦门市美亚柏科信息股份有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289;G06F16/35 |
代理公司: | 厦门福贝知识产权代理事务所(普通合伙) 35235 | 代理人: | 郝学江 |
地址: | 361000 福建省厦门市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 内容 分类 方法 系统 | ||
1.一种短文本内容分类方法,其特征在于,包括:
取得社交网络平台的短文本内容;
取得该短文本内容的上下文情感特征值和先验情感特征值;
使用模型训练生成该短文本内容的词向量和分类特征向量;
利用多窗口卷积操作来取得不同粒度的该短文本内容的语义关系,并组合池化操作而从不同层次对该短文本内容的语义表示进行抽象化;
其中,使用模型训练生成该短文本内容的词向量的步骤包括:
使用第一模型训练生成该短文本内容的分布式词向量t=[w1,w2,...,wn],其中wi是该短文本内容中的单词项wi,每个单词项wi都是一个向量;
将该分布式词向量t输入到一个深度卷积神经网络的卷积层,以生成该短文本内容的上下文局部特征向量xt=[x1,x2,...xt];
将该分布式词向量t输入到前向长短时记忆网络中以取得前向长短时记忆网络输出序列向量,并输入到后向长短时记忆网络中以取得后向长短时记忆网络输出序列向量,并组合该前向长短时记忆网络输出序列向量和该后向长短时记忆网络输出序列向量以生成新向量hn;
使用第二模型训练生成该短文本内容的句子级特征向量td;以及
组合该上下文局部特征向量xt、该新向量hn以及该句子级特征向量td,以生成多层次文本语义向量ot;
使用双向长短时记忆网络获得该短文本内容的语义表征;以及
组合不同层次的情感特征向量并取得输出向量,使用函数对该输出向量进行计算以取得该短文本内容属于一或多个内容类别的概率值,并将该概率值为最大的该内容类别作为该短文本内容的类别。
2.根据权利要求1所述的方法,其特征在于,取得该短文本内容的上下文情感特征值和先验情感特征值的步骤包括:
生成该短文本内容的上下文情感特征值向量tc;以及
生成该短文本内容的先验情感特征值向量SenScore(t)。
3.根据权利要求1所述的方法,其特征在于,利用多窗口卷积操作来取得不同粒度的该短文本内容的语义关系,并组合池化操作而从不同层次对该短文本内容的语义表示进行抽象化的步骤包括:
将该多层次文本语义向量ot输入深度卷积神经网络的池化层,以生成向量o't;以及
将该向量o't再次进行卷积操作以取得更高一层的文本语义特征表示并输出向量再进行Top-K池化操作,直到取得最后一层的该文本语义特征表示并输出向量再进行该Top-K池化操作,使得该最后一层的该Top-K池化操作输出向量t′i。
4.根据权利要求1所述的方法,其特征在于,组合不同层次的情感特征向量并取得输出向量,使用函数对该输出向量进行计算以取得该短文本内容属于一或多个内容类别的概率值,并将该概率值为最大的该内容类别作为该短文本内容的类别的步骤包括:
连接该上下文情感特征值向量tc、该先验情感特征值向量SenScore(t)和该向量t′i,以生成向量y';
将该向量y'输入深度卷积神经网络的全连接层,以取得输出向量y;以及
使用第一函数对该输出向量y进行计算,以取得该短文本内容属于一或多个内容类别的概率值,并将该概率值为最大的该内容类别作为该短文本内容的类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门市美亚柏科信息股份有限公司,未经厦门市美亚柏科信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810447731.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文字传播路径分析方法及系统
- 下一篇:一种翻译笔
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法