[发明专利]一种行业文本情感获取方法、装置及存储介质在审
申请号: | 201810864029.2 | 申请日: | 2018-08-01 |
公开(公告)号: | CN109284499A | 公开(公告)日: | 2019-01-29 |
发明(设计)人: | 刘焕勇;李瑞;梁吉光 | 申请(专利权)人: | 数据地平线(广州)科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 广州容大专利代理事务所(普通合伙) 44326 | 代理人: | 刘新年 |
地址: | 511458 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 依存关系 文本情感 存储介质 构建 知识库 文本 自然语言处理 目标领域 目标文本 情感计算 长文本 大数据 自适应 情绪 准确率 词库 递推 分级 分句 集合 检验 应用 分析 | ||
本发明公开一种行业文本情感获取方法、装置及存储介质,涉及自然语言处理大数据分析技术领域,本发明结合目标领域情感知识库对分句进行情感句识别,形成情感句集合;根据构建的情感依存关系树依存关系,确定各类情感依存关系得分的获取方法;将长句切分为子句,根据各类情感依存关系得分的获取方法,分级递推获得子句情感得分、长句情感得分、段落情感得分,最终获得目标文本的情感得分;经过实际应用检验,本发明提出的行业文本情感计算方法能够较好地对行业文本情绪进行反映,在长文本篇章级情绪的计算上,准确率达到85%;针对不同领域的文本,本发明能够快速地通过领域情感词库构建,实现不同行业的情感计算快速自适应。
技术领域
本发明涉及自然语言处理大数据分析技术领域,尤其涉及一种行业文本情感获取方法、装置及存储介质。
背景技术
随着我国各行各业的发展,互联网上出现了越来越多的行业资讯,而行业发展的欣荣与否,体现在具体的行业资讯当中。一篇行业资讯包含特定的情绪,选择合适的情感分析方法,可以得到行业资讯的情绪数据,进一步量化行业资讯情绪,捕捉行业情绪走势,可为行情监测,行业指标预测等工作提供帮助。
目前就情感分析而言,主要包括两种方式,基于无监督的规则方式,基于有监督的学习方式。前者通过构建情感词表,制定情感计算规则获得情绪数据。目前基于依存关系的情感计算相关专利包括申请号为2017107837114的《一种基于依存关系抽取评价对象的方法》,基于直接和间接的依存关系模板,抽取观点评价对象;申请号为2016105375671的《一种基于依存关系模板抽取观点评价对象的Bootstrapping方法》,通过构造观点评价对象词与情感词之间的依存关系模板,完成观点评价对象抽取。申请号为2012103171830的《基于词语依存关系的观点抽取方法》,通过评价对象和情感特征之间的词语依存关系判断观点极性。这些技术方法都没有解决长文本行业情感计算的问题。
基于学习的有监督情感分析方法,如传统的机器学习方法,如SVM,Bayes,决策树等;深度学习方法,包括CNN,LSTM等,通过构建训练模型,训练得到情感分类器,最终得到情绪分类结果。而就这类技术而言,为了得到充分、可靠的模型,后者需要足够多的标注数据,这通常需要很大的人力。其次,领域性是情感分析中的一个主要问题,基于一个领域训练得到的情绪模型通常不具备领域迁移性,在某一行业中表现良好的情感模型,在其他行业中可能不奏效。目前这类技术方法主要集中在如评论、微博等短文本上,在长文本上,还缺少相关的应用。
因此,总结的来说,目前面向长文本的情感计算方法存在以下不足:
1、目前的情感分析任务大多处理的是短文本,如微博、酒店评论等的情感,对长文本的篇章级情感很少有涉及。
2、目前通用领域的情感知识库无法支持多领域多行业文本的情感计算需求,即情感词的跨领域适用性较差。例如现在网上公开的大连理工情感词典等,包含的大多数都是修饰人的情感词,这个在行业情绪上并不奏效。
3、目前简单的基于情感词计数的方法无法正确反映文本的真实情感,需要进一步考虑和引用词语之间结构信息和依存信息
发明内容
本发明针对复杂压铸件的打磨问题提供一种行业文本情感获取方法、装置及存储介质,实现长文本篇章情感的准确判断,提高适应性和效率。
为了实现上述目的,本发明提出一种行业文本情感获取方法,包括如下步骤:
S10、根据互联网数据构建目标领域情感知识库;
S20、对目标文本进行预处理、分段和长句切分;
S30、结合目标领域情感知识库对分句进行情感句识别,形成情感句集合;
S40、对各情感句集合进行分词、词性标注和依存句法分析,构建情感依存关系树;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于数据地平线(广州)科技有限公司,未经数据地平线(广州)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810864029.2/2.html,转载请声明来源钻瓜专利网。