[发明专利]一种基于字的中文观点要素情感分析方法有效

专利信息
申请号: 201811045651.7 申请日: 2018-09-07
公开(公告)号: CN109145304B 公开(公告)日: 2022-09-06
发明(设计)人: 叶宏彪;潘嵘 申请(专利权)人: 中山大学
主分类号: G06F40/30 分类号: G06F40/30;G06F40/289
代理公司: 广州粤高专利商标代理有限公司 44102 代理人: 陈伟斌
地址: 510275 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 中文 观点 要素 情感 分析 方法
【说明书】:

发明涉及自然语言处理的技术领域,更具体地,涉及一种基于字的中文观点要素情感分析方法。一种基于字的中文观点要素情感分析方法,其中,包括以下步骤:S1.选取数据集;S2.数据清洗和提取;S3.字嵌入;S4.训练初始化的模型;S5.测试。本发明的优点在于,相比较于传统的中文分词并获得词向量,把句子划分到字级别改用字嵌入方式获得字向量,避免了因中文分词的不准确带来的歧义困扰。

技术领域

本发明涉及自然语言处理的技术领域,更具体地,涉及一种基于字的中文观点要素情感分析方法。

背景技术

观点要素情感分析是指在句子中含有多个观点要素时,对其中一种进行的情感极性判别。区别于句子为整体进行的情感极性判断,一句话中可能含有多个观点要素的描述,它们所表达出来的情感有时并不相同甚至完全相反,不能简单地给它们打上相同的情感极性标签。以这句话为例:“I bought a new camera.The picture quality is amazing butthe buttery life is too short.”从中我们看出作者对新相机的不同方面看法不同:如果是“camera picture”方面,其情感极性是正向的;而“camera buttery”方面则是负面的。

当前,观点要素情感极性判别的方法,大多是先将一句话进行分词(划分成以词为单位的序列),利用词嵌入(word Embedding)技术获得每个词的词向量,然后输入神经网络(比如卷积神经网络或者循环神经网络)中,融合注意力机制(attention mechanism)对观点要素进行情感极性判断。

中文观点要素情感分析的模型,也采用国外基于英文的观点要素情感分析的方法,只是在分词方面有所区别:英文表达里的词与词之间用空格隔开,分词较为容易;而在中文表达里,词与词之间并没有空格隔开,需要用专门的分词工具进行分词。目前有许多种中文分词工具,比较流行的有jieba和THULAC等。中文分词都是基于统计的分词,其原理是对一句话产生若干种分词选项,利用语料库建立的统计概率计算各种分词选项对应的联合分布概率,找到最大概率对应的分词方法,即为最优分词。

依靠分词工具将中文分词应用到观点要素情感极性判别模型中,可以像英文分词那样直接使用,跨越了不同语言之间的阻隔,在中文情感极性分析领域取得了一定的效果。

尽管中文分词工具在自然语言处理方面取得了一定的成功,但受限于中文的语法和语句结构,中文分词工具准确率也不是百分之百,很容易造成歧义。以这句话为例:“这些乒乓球拍卖得很好”,有两种分词方法:①“这些乒乓球拍卖得很好”;②“这些乒乓球拍卖得很好”,如果我们关注的方面是“乒乓球”,那么显然就无法使用第①种分词。

观点要素情感分析的基础是对句子和观点要素进行分词。观点要素必须与句子的分词结果具有重复性,如果观点要素在句子分词结果中不存在,那么所谓的情感分析就没有任何基础。英文词与词之间用空格隔开,分词之后不存在上述问题,观点要素和句子分词的结果必定有重复的。而中文分词则面临着这方面的问题,正如上一段所举例子,如果“乒乓球”是观点要素,但这个词在第①种分词结果中就不存在,这种情况下就不能做观点要素情感分析。

因此,基于中文分词的观点要素情感分析存在分词导致歧义的缺陷,会最终削弱情感极性判别的效果。

发明内容

本发明为克服上述现有技术所述的至少一种缺陷,提供一种基于字的中文观点要素情感分析方法,在进行中文观点要素情感分析之前,为避免因中文分词可能带来的歧义,不使用传统的分词+词嵌入方式获得词向量,而是以更基本的组成——字,代替词并输入观点要素情感分析模型,降低中文观点要素情感极性判别的误差。

本发明的技术方案是:一种基于字的中文观点要素情感分析方法,其中,包括以下步骤:

S1.选取数据集;

S2.数据清洗和提取;

S3.字嵌入;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811045651.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top