[发明专利]领域文本情绪识别方法、装置、计算机设备及存储介质在审
申请号: | 202010694597.X | 申请日: | 2020-07-17 |
公开(公告)号: | CN112036175A | 公开(公告)日: | 2020-12-04 |
发明(设计)人: | 沈春泽 | 申请(专利权)人: | 苏宁金融科技(南京)有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F16/35 |
代理公司: | 北京市万慧达律师事务所 11111 | 代理人: | 张慧娟 |
地址: | 211800 江苏省南京市江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 领域 文本 情绪 识别 方法 装置 计算机 设备 存储 介质 | ||
本发明公开一种领域文本情绪识别方法、装置、计算机设备及存储介质,属于文本处理技术领域,方法包括:对待识别的领域文本进行分句并分词;对领域文本的分词在预设的情绪词典中进行匹配,确定出至少一个情绪词以及各情绪词的预设情绪强度,并确定各情绪词所在的分句;基于各情绪词的预设情绪强度、各情绪词所在的分句以及各分句在领域文本的不同位置处的预设位置权重,计算领域文本的情绪强度值并进行归一化;基于领域文本归一化后的情绪强度值,输出文本情绪识别结果。本发明能够有效提高特定领域内的文本情绪识别的准确性。
技术领域
本发明涉及领域文本信息处理技术领域,尤其涉及一种领域文本情绪识别方法、装置、计算机设备及存储介质。
背景技术
领域文本情绪识别是指利用自然语言处理和领域文本挖掘技术,对带有情感色彩的主观性领域文本进行分析、处理和抽取的过程,从而识别其主观倾向是肯定或否定,或者说是正面还是负面的。
目前,领域文本情绪识别技术被广泛用于诸多自然语言处理的领域,较为典型的场景是舆情监控系统。例如,在金融领域,业务人员通常会将舆情信息作为一个重要的关注来源,特别是企业短时间内出现较多的负面信息,如违约、高管变更等,往往会对企业的正常经营活动造成较大的负面冲击。通过收集和分析企业关联的公开信息,对领域文本情感进行分析,处理和归纳,便可以针对企业提供舆情风险信息,及时掌握企业的舆情动向,能够协助业务人员及时发现企业的潜在风险并进行风险管理,从而避免或降低信贷风险。
现有的文本情绪识别方法大多采用常规的机器学习模型,但在特殊行业领域,事先通过人工标注大量的训练样本费时费力,标注成本非常高,这就限制了高质量的样本数量,而样本数量的不足就会影响模型性能,进而影响到特定领域中的文本情绪识别的准确性。
发明内容
为了解决上述背景技术中提到的问题,本发明提供一种领域文本情绪识别方法、装置、计算机设备及存储介质。
第一方面,提供了一种领域文本情绪识别方法,所述方法包括:
对待识别的领域文本进行分句并分词;
对所述领域文本的分词在预设的情绪词典中进行匹配,确定出至少一个情绪词以及各所述情绪词的预设情绪强度,并确定各所述情绪词所在的分句;
基于各所述情绪词的预设情绪强度、各所述情绪词所在的分句以及各所述分句在所述领域文本的不同位置处的预设位置权重,计算所述领域文本的情绪强度值并进行归一化;
基于所述领域文本归一化后的情绪强度值,输出文本情绪识别结果。
进一步地,所述情绪词典通过如下方式构建得到:
构建特定领域的种子词典,其中,所述种子词典包含的各个种子情绪词均标注有对应的情绪强度和情绪权重;
对所述特定领域的预设语料库中的文本进行分句,并对获得的各个分句进行浅层句法分析,解析出各个所述分句的句法成分,形成句法树;
基于功能语法理论,将所述句法树上功能相同的词语归入同一词语类别中;
将具有预设类别标签的词语类别中的每一个词语分别作为候选词,并结合上下文获取各个所述候选词的同现词,以形成候选词集合;
从所述候选词集合中筛选出各个所述种子情绪词的扩展词,并根据各个所述种子情绪词的扩展词,对所述种子词典进行更新以构建得到所述情绪词典。
进一步地,所述基于各所述情绪词的预设情绪强度、各所述情绪词所在的分句以及各所述分句在所述领域文本的不同位置处的预设位置权重,计算所述领域文本的情绪强度值,包括:
基于各所述情绪词的预设情绪强度所属的情绪极性,计算各所述情绪词所在的分句在各所述情绪极性下的情绪强度值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏宁金融科技(南京)有限公司,未经苏宁金融科技(南京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010694597.X/2.html,转载请声明来源钻瓜专利网。