[发明专利]一种基于句法分析的网购评论新情感词提取方法在审
| 申请号: | 202110219489.1 | 申请日: | 2021-02-26 |
| 公开(公告)号: | CN112926318A | 公开(公告)日: | 2021-06-08 |
| 发明(设计)人: | 许汗清;张顺香;朱广丽;朱海洋 | 申请(专利权)人: | 安徽理工大学 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/211;G06F40/253 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 232001 安徽*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 句法 分析 评论 情感 提取 方法 | ||
本发明公开一种基于句法分析的中文新情感词提取方法,目的是在利用句法分析技术提取中文文本中的新情感词。该方法具体为:首先对中文商品评论语料库中的每条文本进行预处理以及分词;然后对语句进行句法分析生成语法树,遍历语法树形成对应的路径字符串,结合编辑距离来衡量两个词语所在语句的句法结构相似度,从而提取与旧情感词具有相似句法结构的新词作为候选新情感词;最后结合点互信息(SO‑PMI)和正负语料差商系数(DC‑NPC)计算候选新情感词的情感极性,将具有情感极性的词语加入新情感词集合。该方法考虑了上下文和句法信息,并解决了对候选词过滤精度不高的问题。它可以有效且准确地识别出新情感词,且新情感词的有效提取为文本情感分析也提供了基础支持。
技术领域
本发明涉及文本分析技术领域,特别涉及一种基于句法分析的网购评论新情感词提取方法。
背景技术
随着电子商务在互联网上的应用和发展,大量的用户倾向于在购物平台上发布网购评论。网购评论文本可以为消费者或企业提供丰富的信息,包括客观具体的商品描述、准确真实的数据统计以及各类商品的知名度等。准确、有效地对网购评论进行情感分析具有很大的实用价值。情感词作为一种有用的先验知识,可以为后续的情感分析做基础性铺垫。由于情感词是人们表达意见或态度的基本语言单位,中文评论文本中也存在许多新情感词有待被挖掘,因此新情感词的提取无疑是一个至关重要的领域。
目前,一种有效的新情感词提取方法需要考虑以下两个方面:一方面,提取过程中保留更多的新情感词;另一方面,确保所提取的词语有明确的情感极性。本文可以将新情感词提取任务构想为:先从粗粒度层面挖掘出候选新情感词集合,再从细粒度层面筛选出具有情感极性的新情感词。
当前的新情感词提取方法存在以下不足:(1)普遍忽略上下文和句法信息; (2)所提取出的新情感词不够全面,存在许多新情感词未能被识别出来。中文网购评论文本也存在以下特点:(1)评论文本的句法结构高度相似;(2)评论文本包含较多的网络新词或新颖的情感词。
针对上述问题,本发明提出了一种基于句法分析的网购评论新情感词提取方法。该方法考虑了上下文及句法结构信息,且结合点互信息和新提出的“正负语料差异系数”共同计算词语的情感极性。该方法可以有效地识别出新情感词,它在一定程度上改善了新情感词提取中准确率和召回率低、情感极性不明显、对候选词的过滤精度不高等问题。
发明内容
本发明的目的是提供一种基于句法分析的网购评论新情感词提取方法,该方法可有效识别出新情感词,且准确率和召回率较高。为实现该发明目的,本发明提供的新情感词提取方法,其特征在于,包括以下步骤:
步骤1:建立中文商品评论语料并对其进行预处理,利用中科大分词工具 ICTCLSA对语料中的每条评论进行分词。
步骤2:结合编辑距离进行提取候选新情感词。利用句法分析技术将文本生成语法树,遍历语法树形成的遍历路径为字符串形式。结合编辑距离来计算字符串之间的相似度,从而衡量两个词语所在语句的句法结构相似性,最终提取出与旧情感词具有相似句法结构的新词作为候选新情感词。
步骤2.1:利用斯坦福大学的自然处理工具包Stanza对文本进行分句,然后利用该软件包对语句进行句法分析,从而获取每个句子的语法树结构信息。
步骤2.2:建立一个语法树结构表作为匹配模板,该表中存放多个常见句式的字符串表示,例如(ROOT-IP-VP-AD-VP-ADVP-VA),这些字符串即评论语句对应的语法树中从根节点到旧情感词节点的遍历路径。字符串反映了词语所在语句的句法结构信息。
步骤2.3:对分句处理后的每个子句进行子树生成,遍历每棵子树的语法树结构信息并生成字符串S。计算子句对应的字符串S和匹配模板中已有的字符串之间的编辑距离ED。当ED大于设定的阈值k时,视为句法结构不相似,则将该遍历字符串S加入语法树结构表进行更新匹配模板;当ED小于设定的阈值k 时,视为句法结构相似。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽理工大学,未经安徽理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110219489.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种集中绕组发电机
- 下一篇:一种业务数据存储方法、装置及电子设备





