[发明专利]针对中文微博的观点分析原型系统有效
申请号: | 201711344068.1 | 申请日: | 2017-12-15 |
公开(公告)号: | CN108038205B | 公开(公告)日: | 2021-12-21 |
发明(设计)人: | 廖祥文;陈国龙;张丽瑶;杨定达 | 申请(专利权)人: | 福州大学 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06F40/30;G06F40/289;G06N3/04;G06Q50/00 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 蔡学俊;丘鸿超 |
地址: | 350116 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 针对 中文 观点 分析 原型 系统 | ||
1.一种针对中文微博的观点分析原型系统,其特征在于:包括:
一中文微博数据预处理模块,用于将不同用户在不同话题下发表的微博及其评论文本进行对话序列级联、中文分词,得到词向量字典;
一一致性挖掘模块,对用户-观点、话题-观点、用户-文本和话题-文本之间的一致性构建抽象向量,从全局的角度刻画中文微博的特征,利用四者之间的相互联系挖掘出隐含的文本语义和观点信息;
对于用户-文本一致性和话题-文本一致性,采用向量组合的思想进行建模:具体地,对于用户i发表的关于主题j的一条微博或者评论dk,用两个实数矩阵分别表示用户i和话题j,其中d为词向量长度,dU和dZ为各部分输出向量的长度;然后用矩阵-向量乘法将它们与原有的词向量进行语义组合,分别得到含有用户信息和话题信息的词向量;最后,将两个向量进行连接,即得到融合用户-文本一致性和话题-文本一致性的词向量,作为特征抽取模块的输入;
对于用户-观点一致性和话题-观点一致性,把它们分别抽象为实数型向量和du和dz分别为两个向量的长度,然后将它们与特征抽取模块的输出进行拼接,得到中文微博文本的最终表示,作为分类结果输出模块的输入;
一特征抽取模块,基于上下文和卷积神经网络模型从局部和全局的角度抽取出不同类型的特征,并根据误差不断更新参数;
一分类结果输出模块,用分类函数得到最终的观点分析结果。
2.根据权利要求1所述的系统,其特征在于:所述中文微博数据预处理模块中的对话序列级联操作利用交互上下文,将当前微博与原始微博和上一级微博级联,以扩充不同主题下的微博内容。
3.根据权利要求1所述的系统,其特征在于:所述中文微博数据预处理模块中的词向量字典借助Google开源的word2vec工具对训练数据集训练得到。
4.根据权利要求1所述的系统,其特征在于:所述一致性挖掘模块考虑了除中文微博文本以外的用户和话题两个因素对微博的文本表达和观点表达的影响,构建了分别表征用户和话题的矩阵、向量。
5.根据权利要求1所述的系统,其特征在于:所述卷积神经网络模型包括卷积层和池化层,分别从局部和全局进行特征抽取。
6.根据权利要求5所述的系统,其特征在于:所述卷积层利用过滤器的局部感受域和权值共享,将指定窗口内的文本信息进行处理和映射,实现特征的抽象化,其形式为c=[c1,c2,...,cn-rs+1],每一维上的数值ci代表该微博隐含的某种情感特征。
7.根据权利要求5所述的系统,其特征在于:所述池化层采用最大池化对卷积层得到的特征进行筛选,从全局角度进一步选出最能代表微博所包含的观点信息的特征。
8.根据权利要求5所述的系统,其特征在于:所述卷积神经网络模型还包括若干个全连接层和向量拼接,将卷积神经网络模型得到的特征进一步抽象化,并将文本特征和用户、话题特征进行融合,得到最终的中文微博文本向量。
9.根据权利要求1所述的系统,其特征在于:所述分类结果输出模块采用softmax函数对所得到的中文微博文本向量处理,预测各微博的观点类别。
10.根据权利要求1或9所述的系统,其特征在于:在所述分类结果输出模块的模型训练阶段,词向量和权重矩阵都是参数,根据信息的前向传播和误差的后向传播将不断地对他们进行调整,逐步优化目标函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711344068.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:多枪燃烧水冷预混真空锅炉
- 下一篇:一种见光不变色的银离子抗菌剂