[发明专利]一种行业文本情感获取方法、装置及存储介质在审
申请号: | 201810864029.2 | 申请日: | 2018-08-01 |
公开(公告)号: | CN109284499A | 公开(公告)日: | 2019-01-29 |
发明(设计)人: | 刘焕勇;李瑞;梁吉光 | 申请(专利权)人: | 数据地平线(广州)科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 广州容大专利代理事务所(普通合伙) 44326 | 代理人: | 刘新年 |
地址: | 511458 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 依存关系 文本情感 存储介质 构建 知识库 文本 自然语言处理 目标领域 目标文本 情感计算 长文本 大数据 自适应 情绪 准确率 词库 递推 分级 分句 集合 检验 应用 分析 | ||
1.一种行业文本情感获取方法,其特征在于,包括如下步骤:
S10、根据互联网数据构建目标领域情感知识库;
S20、对目标文本进行预处理、分段和长句切分;
S30、结合目标领域情感知识库对分句进行情感句识别,形成情感句集合;
S40、对各情感句集合进行分词、词性标注和依存句法分析,构建情感依存关系树;
S50、根据所构建的情感依存关系树依存关系,确定各类情感依存关系得分的获取方法;
S60、将长句切分为子句,根据各类情感依存关系得分的获取方法,分级递推获得子句情感得分、长句情感得分、段落情感得分,最终获得目标文本的情感得分;
S70、对目标文本的情感得分进行归一化处理,输出情感得分。
2.根据权利要求1所述的行业文本情感获取方法,其特征在于,步骤S10所述的根据互联网数据构建目标领域情感知识库,具体包括如下步骤:
S101、从开源语言资源网站中收集公开的情感知识词典,构建基本的情感知识库;
S102、通过采集目标领域行业语料,人工标注种子情感词,扩充基本的情感知识库,获得目标领域情感知识库。
3.根据权利要求1所述的行业文本情感获取方法,其特征在于,步骤S50所述的根据所构建的情感依存关系树依存关系,确定各类情感依存关系得分的获取方法;具体包括:主谓关系类情感依存关系的情感得分获取方法、动宾关系类情感依存关系的情感得分获取方法、定中关系类情感依存关系的情感得分获取方法、状中关系类情感依存关系的情感得分获取方法、动补关系类情感依存关系的情感得分获取方法和并列关系类情感依存关系的情感得分获取方法。
4.根据权利要求3所述的行业文本情感获取方法,其特征在于,所述的主谓关系类情感依存关系的情感得分获取方法,具体包括:
若被支配词与支配词的词性为名词与动词或名词与形容词,且被支配词不是特异词,则主谓关系类情感依存关系的情感得分公式如下:
S(SBV)=S(BW)*P(BW)+S(ZW)*P(BW)*0.5 (1)
其中,S(SBV)表示主谓关系类情感依存关系的情感得分,SBV表示主谓关系;S(BW)表示被支配词的情感强度,BW表示被支配词;P(BW)表示被支配词的词性,S(ZW)表示支配词的情感强度;ZW表示支配词;
若被支配词与支配词的词性为名词与动词或名词与形容词,且被支配词是特异词,则主谓关系类情感依存关系的情感得分公式如下:
S(SBV)=(S(BW)*P(BW)+S(ZW)*P(BW)*0.5)*(-1) (2)。
5.根据权利要求3所述的行业文本情感获取方法,其特征在于,所述的动宾关系类情感依存关系的情感得分获取方法,具体包括:
若被支配词与支配词的词性为名词与动词或者形容词与动词,且支配词不在反转词词典中,则动宾关系类情感依存关系的情感得分公式如下:
S(VOB)=S(BW)*P(BW)*0.5+S(ZW)*P(ZW) (3)
其中,S(VOB)表示动宾关系类情感依存关系的情感得分,VOB表示动宾关系;S(BW)表示被支配词的情感强度,BW表示被支配词;P(BW)表示被支配词的词性,S(ZW)表示支配词的情感强度;ZW表示支配词;P(ZW)表示支配词的词性;
若被支配词与支配词的词性为名词与动词或者形容词与动词,且支配词在反转词词典中,则动宾关系类情感依存关系的情感得分公式如下:
S(VOB)=S(BW)*P(BW)*(-1) (4)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于数据地平线(广州)科技有限公司,未经数据地平线(广州)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810864029.2/1.html,转载请声明来源钻瓜专利网。