[发明专利]一种长文本中多实体情感分析的方法在审
申请号: | 201811283252.4 | 申请日: | 2018-10-31 |
公开(公告)号: | CN109325238A | 公开(公告)日: | 2019-02-12 |
发明(设计)人: | 吴振豪;陈钟;李青山;兰云飞;杨可静;高健博;王晓青 | 申请(专利权)人: | 北京国信云服科技有限公司;北京大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/35 |
代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 刘晓岚 |
地址: | 100094 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 情感分析 文本句子 长文本 文本 文本信息 命名实体 实体结果 算法识别 语法结构 包容性 聚合 句子 分析 信息技术 分割 | ||
本发明提供一种长文本中多实体情感分析的方法,涉及信息技术技术领域。一种长文本中多实体情感分析的方法,首先对需要进行多实体情感分析的长文章使用命名实体算法识别文本中的实体,并对文本进行分割,通过语法结构分析,得到每个文本句子中与实体相关的文本信息;然后根据每个文本句子中与实体相关的文本信息,得到每个文本句子中每个实体的情感;最后根据每个文本句子中每个实体的情感,得到每个实体在整个全文本中的情感。本发明提供的长文本中多实体情感分析的方法,能够兼顾文本中实体的识别、对实体的情感分析、同时分析多个实体、考虑实体间的相关性;并有效对分散在文章多个句子中的实体情感进行聚合和有包容性的实体结果判断。
技术领域
本发明涉及信息技术领域,尤其涉及一种长文本中多实体情感分析的方法。
背景技术
随着互联网的快速发展,网络上的信息呈现出爆炸式增长。文本信息是网络信息交流的一个重要途径,报导、评论、微博、博客等形式的内容都快速增长,与之相对应的,是对内容检测与挖掘技术的缓慢发展难以挖掘出文本中的丰富内容。
情感分析是当前自然语言处理中的一个长期火热的话题。当前,情感分析的发展非常迅速。分析方法上有基于词库和WordNet的分析方法,基于机器学习和基于深度学习的分析方法;分析内容上有篇章级别的情感分析,还有句子级别和短语级别的情感分析;分析结果上有正面、中性、负面的极性分析和依靠评分的情感程度分析。大多数情感分析方法都是在所需要分析的文本是建立在单个命名实体下或者只包含单种情感的前提下进行的,可是大多数文本内容并不按照这种前提进行撰写,一段文字包含多个实体或者多种情感都是非常可能的,尤其在长文本中出现的可能性非常高,而这种情况现有的情感分析方法还不能够进行很好地处理。
命名实体是指人名、机构名、地名等以名称为标识地实体,这在文本中通常有特定的指代含义,也在大量的文本中出现,尤以长报导居多。而在长报导中,通常会有多个命名实体出现,单个命名实体的情感也会发生变化,在开篇呈现正面,末尾呈现负面;或者在开篇和末尾均呈现负面,但是在中间呈现正面的情况非常之多。在存在这些复杂的情况下,对长文本进行快速有效的情感分析就是一个很难解决的问题。
目前针对多实体多情感问题的方法中,有采用分割文本的方式,对文本进行切割,只保留需要进行情感分析的命名实体,来进行比较综合的情感判断。这种方法会破坏文本内容之间的关联性,虽然某句话中没有提到某个命名实体,但提及的实体与想要进行判断的命名实体有所联系,也会对想要进行判断的命名实体产生影响,因此这种方式不够理想。而另外的一些针对多实体多情感问题的方法大多数聚焦于短文本,短文本的信息表述没有长文本那么复杂,辨析度更好,而且短文本中出现多实体多情感的情况较少,不具备普适性。这两种方式还有效率上的缺陷,分析的目标文章只有一篇,却要进行多次遍历分析,时间浪费严重。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种长文本中多实体情感分析的方法,实现对一个长文本中的命名实体全部进行全局的情感分析。
为解决上述技术问题,本发明所采取的技术方案是:一种长文本中多实体情感分析的方法,包括以下步骤:
步骤1、对需要进行多实体情感分析的长文章使用命名实体算法识别文本中的实体;
步骤2、根据标点符号对文本进行分割,得到完整的文本句子;
步骤3、对每个文本句子进行语法结构分析,得到每个文本句子中与实体相关的文本信息;
步骤4、根据每个文本句子中与实体相关的文本信息,得到每个文本句子中每个实体的情感;
步骤5、根据每个文本句子中每个实体的情感,得到每个实体在整个全文本中的情感,具体方法为:
步骤5.1、对每个实体的相关情感信息进行向量化,将情感信息转化为词向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国信云服科技有限公司;北京大学,未经北京国信云服科技有限公司;北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811283252.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于机器翻译的完整句识别方法与系统
- 下一篇:学生课堂表现管理方法及系统