[发明专利]特征扩展卷积神经网络的案件微博观点句识别构建方法有效

专利信息
申请号: 201911258365.3 申请日: 2019-12-10
公开(公告)号: CN111008274B 公开(公告)日: 2021-04-06
发明(设计)人: 余正涛;王晓涵;相艳;郭军军;黄于欣 申请(专利权)人: 昆明理工大学
主分类号: G06F16/335 分类号: G06F16/335;G06F16/951;G06N3/04;G06N3/08;G06F40/284;G06F40/169
代理公司: 昆明人从众知识产权代理有限公司 53204 代理人: 代转嫚
地址: 650093 云南省昆明*** 国省代码: 云南;53
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 特征 扩展 卷积 神经网络 案件 观点 识别 构建 方法
【权利要求书】:

1.特征扩展卷积神经网络的案件微博观点句识别构建方法,其特征在于:

所述方法的具体步骤如下:

Step1、构建案件微博数据库;

Step2、对案件微博数据库中的评论进行标注,形成案件微博评论的训练集和测试集;

Step3、利用textRank算法对案件的多个微博原文进行关键词的抽取;

Step4、从案件原文中提取出的关键词作为特征扩展和训练集案件微博评论向量化后进行拼接得到新的向量;

Step5、将从案件原文中提取出的关键词作为特征扩展和案件微博评论向量化后进行拼接得到新的向量作为输入来训练卷积神经网络,再把测试集输入到训练好的卷积神经网络进行观点句的识别分类。

2.根据权利要求1所述的特征扩展卷积神经网络的案件微博观点句识别构建方法,其特征在于:所述步骤Step1的具体步骤为:

Step1.1、采用基于Scrapy框架的爬虫从新浪微博上爬取相关案件微博原文及评论;

Step1.2、再对案件微博原文及评论进行过滤筛选,从而构建案件微博数据集,最终得到案件微博的数据库;

过滤筛选的方式如下所示:

Step1.2.1、对微博博文按照转发关系“//”进行划分,用于保证转发微博下面的评论是基于原始微博进行分析的;

Step1.2.2、删除微博评论里“@+用户名+回复”这样的结构,且删除无关超链接广告;

Step1.2.3、对连续出现多个标点符号情况,采用首位标点符号进行替换,并去除微博评论内容中的表情符号;

Step1.2.4、对小于七个字符的评论数据进行过滤筛除,用于保证评论内容的完整和可用性。

3.根据权利要求1所述的特征扩展卷积神经网络的案件微博观点句识别构建方法,其特征在于:所述步骤Step2中:

案件微博数据库的评论数据采用人工标注,以一条微博原文为单位对包含的评论数据进行标注工作;

其中,一句微博评论中既包含观点又包含案件相关要素,标注为0;其他视为非观点句,标注为1;三人盲判取交集,最终获得观点句的标注结果。

4.根据权利要求1所述的特征扩展卷积神经网络的案件微博观点句识别构建方法,其特征在于:所述步骤Step3的具体步骤如下:

Step3.1、把案件微博原文文本分割成若干个完整的句子,每个句子需要过滤掉停用词,并只保留指定的词性的词,即名词、动词,形成句子和词的集合;

Step3.2、基于句子和词的集合构建候选关键词图G=(V,E),其中V为节点集,由生成的候选关键词组成;

Step3.3、然后采用共现关系构造任两点之间的边计算出每个词节点的权重,每个节点的权重如式(1)所示:

其中,D为阻尼系数,Wji为词Vj与词Vi的连接权重,Wjl为词Vj与词Vl之间的连接权重,T代表一个词的textRank值;

Step3.4、对节点的权重进行倒序排序,指定需要的关键词个数,最后得到案件微博原文的关键词。

5.根据权利要求1所述的特征扩展卷积神经网络的案件微博观点句识别构建方法,其特征在于:所述步骤Step4的具体步骤如下:

Step4.1、把整个评论句和获取的关键词组输入到嵌入层中;其中每个评论句子由n个词组成,关键词组由s个词组成;

Step4.2、将评论句和关键词经过word2vec词向量模型处理得到d维特征的词向量,然后将评论句中的每一个词的词向量后面依次拼接上关键词组的词向量,形成一个具有案件评论和关键词特征的新的词向量xi;xi表示拼接操作后第i个词的词向量,xi∈R(s+1)d,其中i=1,2,…n;评论句表示为xi,xi+1,…,xi+n-1

Step4.3、循环执行步骤Step4.2,使得每一个评论句都对关键词组进行拼接操作后形成卷积层的输入。

6.根据权利要求1所述的特征扩展卷积神经网络的案件微博观点句识别构建方法,其特征在于:所述步骤Step5的具体步骤如下:

Step5.1、将从案件原文中提取出的关键词作为特征扩展和案件微博评论向量化后进行拼接得到新的向量输入到卷积层,卷积层的核心是滤波器,由不同大小的卷积核在不同范围内抽取评论的局部信息,从而组合出案件微博评论中不同的特征;

每个卷积层都有固定大小的滑动窗口,每次只处理窗口内的信息;窗口的大小定义为k,在卷积操作中有连续k个词向量获得新的特征值ci,xi:i+k-1表示输入评论句中第i个词到i+k-1个词的卷积的操作过程用式(2)表示为:

ci=f1(w·xi:i+k-1+b) (2)

其中,滤波器的权重矩阵定义为w∈Rk×d,b为偏置项,f1为激活函数;抽取出的特征向量C用式(3)表示为:

C=[c1,c2,…,cn-k+1] (3)

其中,C∈Rn-k+1;i=1,2,…n,n是每个评论句子中词的个数;

Step5.2、经过了卷积层的操作后,案件微博评论中的观点和案件的相关特征表现明显,在此基础上,池化层从不同窗口的特征集合中筛选出微博评论中包含的相关特征;对于得到的案件微博评论特征向量C进行max-pooling生成最大的特征值用式(4)表示为:

Step5.3、在池化层的特征值通过多个不同大小的滤波器生成的特征值进行组合获得情感分类特征v;经过全连接层的操作将特征进一步量化,从而抽取到更深层的语义特征v′,量化的过程用式(5)表示为:

v′=w′·v+b (5)

其中,w′为全连接层训练的权重矩阵,b为偏置项;

Step5.4、v′经过全连接层,获得了多个特征类别范围内的估计值,需要做归一化的处理,采用softmax分类函数决策出最大概率的类别,用式(6)表示为:

p=softmax(v′) (6)

其中,softmax为分类器,p表示评论句最终特征所属的概率大小为0或1,如果是1,则表示该评论句不是观点句,如果是0,则该评论句是观点句,从而能判别出案件微博评论句属于观点句还是非观点句;

Step5.5、通过步骤Step5.1-Step5.4训练出卷积神经网络,再把测试集输入到训练好的卷积神经网络进行观点句的识别分类。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911258365.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top