[发明专利]信息处理装置和方法在审
申请号: | 201610921729.1 | 申请日: | 2016-10-21 |
公开(公告)号: | CN107977352A | 公开(公告)日: | 2018-05-01 |
发明(设计)人: | 孟遥;陈大军;张波 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 唐京桥,李春晖 |
地址: | 日本神*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息处理 装置 方法 | ||
1.一种信息处理装置,包括:
语料获取单元,其获取来自因特网的文本语料,其中所述文本语料包括训练语料以及未标注语料;
词向量训练单元,其针对所述训练语料训练词向量,其中每个词的词向量为k维;
词向量降维单元,其对所述训练语料中的每个句子的所有词的词向量组成的矩阵进行降维;以及
归一化单元,其对降维的矩阵进行归一化处理,以获得归一化的词向量特征。
2.根据权利要求1所述的装置,其中,所述词向量降维单元进一步包括:
抽取单元,其抽取所述训练语料中的每个句子的n元,其中,n为2、3或4;以及
拼接单元,其将每个n元中的词的词向量进行拼接,以获得每个句子的降维的矩阵。
3.根据权利要求1或2所述的装置,进一步包括:
分类器训练单元,其将所述归一化的词向量特征作为分类器特征,训练分类器模型;以及
语料分类单元,其基于训练的分类器模型对所述未标注语料进行分类。
4.根据权利要求3所述的装置,进一步包括候选词集确定单元,所述候选词集确定单元用于:
获取种子情绪词典,所述种子情绪词典中的每个种子情绪词被分类到多个不同的情绪类别中的一个;
训练所述种子情绪词的词向量;并且
基于所述训练语料的词向量与所述种子情绪词的词向量之间的余弦距离,确定候选情绪词集。
5.根据权利要求4所述的装置,进一步包括第一分类单元,所述第一分类单元用于:
训练所述种子情绪词的字向量;并且
将所述种子情绪词的词向量和字向量结合在一起作为分类器的特征,对所述候选情绪词集中的候选情绪词进行第一情绪分类。
6.根据权利要求5所述的装置,进一步包括第二分类单元,所述第二分类单元用于:
分别针对每一情绪类别中的种子情绪词的词向量组成多个二维矩阵;
分别计算所述多个二维矩阵的中心;
计算所述候选情绪词在每一中心的概率;并且
基于概率对所述候选情绪词进行第二情绪分类。
7.根据权利要求6所述的装置,进一步包括第三分类单元,所述第三分类单元用于:
针对所述训练语料中包括所述种子情绪词或候选情绪词的句子,抽取所述种子情绪词之前和之后的词与所述种子情绪词组成种子三元组或者抽取所述候选情绪词之前和之后的词与所述候选情绪词组成候选三元组;并且
基于所述种子三元组对所述候选三元组进行分类并将所述候选三元组的分类作为所述候选情绪词的第三情绪分类。
8.根据权利要求7所述的装置,进一步包括类别确定单元,当所述候选情绪词集中的一个候选情绪词在所述第一情绪分类、所述第二情绪分类和所述第三情绪分类的结果当中具有至少两个相同的结果时,所述类别确定单元确定所述一个候选情绪词的情绪类别,并且将所述一个候选情绪词添加到所述种子情绪词典中,以获得情绪词集,并且
所述分类器训练单元进一步将所述情绪词集与所述词向量特征一起作为所述分类器特征。
9.根据权利要求3或8所述的装置,进一步包括:
特征降维单元,其对所述文本语料的N元特征进行降维,其中,N为1或2,并且
所述分类器训练单元进一步将降维的N元特征和所述词向量特征或者将降维的N元特征、所述词向量特征和所述情绪词集一起作为所述分类器特征。
10.一种信息处理方法,包括:
获取来自因特网的文本语料,其中所述文本语料包括训练语料以及未标注语料;
针对所述训练语料训练词向量,其中每个词的词向量为k维;
对所述训练语料中的每个句子的所有词的词向量组成的矩阵进行降维;以及
对降维的矩阵进行归一化处理,以获得归一化的词向量特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610921729.1/1.html,转载请声明来源钻瓜专利网。