[发明专利]话题信息的情绪分析方法、装置及服务器在审
申请号: | 201711148609.3 | 申请日: | 2017-11-17 |
公开(公告)号: | CN107943789A | 公开(公告)日: | 2018-04-20 |
发明(设计)人: | 赵立永;吴新丽;姚笛;李云飞;王文文 | 申请(专利权)人: | 新华网股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京市立方律师事务所11330 | 代理人: | 张筱宁 |
地址: | 100062 北京市大兴区北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 话题 信息 情绪 分析 方法 装置 服务器 | ||
技术领域
本发明涉及文本挖掘、自然语言处理领域,具体而言,本发明涉及话题信息的情绪分析方法、装置及服务器。
背景技术
随着互联网技术的进步和因特网的快速普及,网络用户数量急剧增长,社交媒体、购物网站等各种能够提供用户交流的网络服务形式,带来了用户生成内容的急剧增加,这些内容包含用户对消费产品、影视娱乐、新闻时事等发表的个人观点,抒发了用户的个人情绪。通过识别用户评论中包含的积极、消极、厌恶、反对等多样的情绪,能够更好的理解用户针对具体话题、产品、政策及大众人物的个人情绪,有利于个人、商家和企业,提高服务质量,改善个人和企业形象。
现有技术中对话题信息的分析方法,主要基于机器学习的方法,实现评论内容的正面和负面、褒义和贬义等分析,分析粒度比较大,有时并没有准确地反映出用户对该话题信息所表达的情绪。
因此,目前需要一种话题信息的情绪分析方法,实现对话题信息进行细粒度地分析,从而更加准确地分析出用户对该话题信息的情绪倾向。。
发明内容
鉴于上述缺点,本发明提供了话题信息的情绪分析方法、装置及服务器,实现对话题信息进行细粒度地分析,从而准确地分析用户对该话题信息的情绪倾向。
本发明实施例提供了一种话题信息的情绪分析方法,包括:
提取预置语料库中任一目标话题信息中包含的文本信息和至少一个表情符号信息;
根据文本信息,在预置的情绪词典中进行匹配,以确定文本信息中匹配到的至少一个情绪词语、以及各个情绪词语对应的情绪类别;
确定文本信息在匹配到的情绪类别上的第一情绪强度,以及至少一个表情符号信息在匹配到的情绪类别上的第二情绪强度;
根据第一情绪强度和第二情绪强度,确定目标话题信息中文本信息与符号表情信息在匹配到的相同的情绪类别上的情绪强度。
优选地,根据文本信息,在预置的情绪词典中进行匹配,以确定文本信息中匹配到的至少一个情绪词、以及各个情绪词对应的情绪类别,包括:
对文本信息进行切词处理;
将切词结果中的各个词语与预置的情绪词典中的情绪词语进行匹配,确定匹配成功的情绪词语、情绪词语对应的情绪类别和情绪强度,预置的情绪词典中包含多个情绪词语及各情绪词语对应的情绪类别和情绪强度。
优选地,对文本信息进行切词处理,还包括:
删除切词结果中的停用词。
优选地,确定文本信息在匹配到的情绪类别上的第一情绪强度的步骤,包括:
确定匹配成功的情绪词语中属于相同情绪类别的各个情绪词语对于目标话题信息的权重;
根据各个情绪词语对于目标话题信息的权重、以及确定得到的各个情绪词语对应的情绪强度,确定文本信息在匹配到的情绪类别上的第一情绪强度。
优选地,确定匹配成功的情绪词语中属于相同情绪类别的各个情绪词语对于目标话题信息的权重,包括:
根据任一匹配成功的情绪词语在文本信息中出现的次数、切词结果中包括的总词数、以及预置语料库中包含的目标话题信息的总数、包含该情绪词语的目标话题信息的数量,确定出该情绪词语对于目标话题信息的权重。
优选地,确定至少一个表情符号信息在匹配到的情绪类别上的第二情绪强度的步骤,包括:
确定任一匹配到的情绪类别与至少一个表情符号信息的第一互信息,以及所有匹配到的情绪类别与至少一个表情符号信息的第二互信息;
根据第一互信息和第二互信息,确定表情符号信息在匹配到的情绪类别上的第二情绪强度。
优选地,确定任一匹配到的情绪类别与至少一个表情符号信息的第一互信息的步骤,包括:
根据任一匹配到的情绪类别包含的任一情绪词语和任一表情符号信息在预置语料库中共现的频次,以及预置语料库中包含该情绪词语的目标话题信息的数量和包含该表情符号信息的数量,确定该情绪词语与该表情符号信息的互信息;
根据任一匹配到的情绪类别下包括的各个情绪词语分别与至少一个表情符号信息的互信息,确定任一匹配到的情绪类别与至少一个表情符号信息的第一互信息。
优选地,本发明实施例提供的情绪分析方法还包括:
根据预置语料库中各个目标话题信息的情绪强度,确定该预置语料库的情绪强度分布。
本发明实施例还提供一种话题信息的情绪分析装置,包括:
提取单元、匹配单元、第一确定单元、第二确定单元,其中:
提取单元用于提取预置语料库中任一目标话题信息中包含的文本信息和至少一个表情符号信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华网股份有限公司,未经新华网股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711148609.3/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置