[发明专利]一种基于实体识别的文本分类方法及电子装置有效

专利信息
申请号: 202010806716.6 申请日: 2020-08-12
公开(公告)号: CN112069312B 公开(公告)日: 2023-06-20
发明(设计)人: 王树鹏;孙立远;赵忠华;张磊;王博;王勇;付培国;王泽辰;王禄恒;万欣欣;李欣 申请(专利权)人: 中国科学院信息工程研究所;国家计算机网络与信息安全管理中心
主分类号: G06F16/35 分类号: G06F16/35;G06F40/295;G06F40/30;G06F16/9535
代理公司: 北京君尚知识产权代理有限公司 11200 代理人: 陈艳
地址: 100093 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 实体 识别 文本 分类 方法 电子 装置
【说明书】:

本发明提供一种基于实体识别的文本分类方法,包括:对待检测文本进行切词,得到情感词与实体词,并通过一实体及情感类别已标注数据集判断实体词的情感类别;对待检测文本进行断句,通过情感词与标注情感类别的实体词在每一句子中的词性、否定词及标点符号内容,获取各句子的情感类别;依据各句子的情感类别,得到待检测文本的情感类别。本发明利用半监督学习的方式,通过协同训练加主动学习的方式,结合学习加情感规则的方式,确定指向性实体集;通过识别指定方向实体,结合情感词进行倾向性判断;生成指定类别实体集,结合情感规则,实现对文本更深层次的分析。

技术领域

本发明涉及自然语言处理领域,尤其涉及一种基于实体识别的文本分类方法及电子装置。

背景技术

随着互联网的迅速发展,各种各样的文本迅速增加。人们往往根据不同的需要,将这些海量文本进行不同种的分类。例如中国专利申请CN107491554B公开的一种文本分类器的构建方法、构建装置及文本分类方法、中国专利申请CN105224695B公开的一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置等。

在社交平台,微博具有强大的影响力和渗透力。微博用户不断增加,在平台上建立关系、获取信息、生产大量内容。微博文本信息中,包含带有明显情感色彩的内容。挖掘这些文本背后用户的观点与倾向,可以判断流行趋势和热点,有助于企业分析消费者购买倾向,进行精准化营销,也使得政府可以对网民的舆论立场变化做出及时反应。因此,对微博文本进行倾向性分析,进而完成对博文立场的判定,是当前情感分析中一项重要的研究任务。

立场判断以对特定文本进行处理,判断其情感立场为目的,是自然语言处理的重要分支,近年来受到了广泛关注。提取情感词是分析微博所表达情感的最直接方法。微博内容具有长度较短、内容形式多样、观点倾向性强、表达方式口语化、普遍缺少上下文信息等特点。虽然现有技术中有结合情感词典对微博进行分析,通过对微博中包含的情感词进行分类,可以简单地概括其中蕴含的情绪。但是,一条微博所表达的信息不仅与其包含的情感词相关。即使两条微博包含完全相同的情感词,当情感词所指向的对象不同时,微博的观点与倾向性存在明显差异。随着网络语言的发展,用于实体表示的新词也层出不穷,用户常常用品牌缩写、谐音、流行语等进行指代,这些实体依赖人工标注往往需要很大的工作量。因此,如何针对海量微博数据进行倾向性分析,从而实现立场判定,是目前亟须解决的问题。

发明内容

为解决上述问题,本发明公开了一种基于实体识别的文本分类方法及电子装置,将深度学习的方法与情感规则相结合,基于句法规则进行博文立场判断,指定相应的情感规则,结合协同学习和主动学习的方法,可以在仅依赖少量标注数据的前提下准确判断博文对指定类型实体表达的情感立场,解决微博倾向性分析问题,判断博文对特定类型实体的情感立场,以作为辅助信息,有助于流行趋势判断、精准营销、舆情监测等涉及博文倾向性分析的应用。

为达到上述目的,本发明的技术方案如下:

一种基于实体识别的文本分类方法,其步骤包括:

1)对待检测文本进行切词,得到情感词与实体词,并通过一实体及情感类别已标注数据集判断实体词的情感类别;

2)对待检测文本进行断句,通过情感词与标注情感类别的实体词在每一句子中的词性、否定词及标点符号内容,获取各句子的情感类别;

3)依据各句子的情感类别,得到待检测文本的情感类别。

进一步地,在提取待检测文本中的情感词与实体词之前,对待检测文本进行预处理;所述预处理包括:简化繁体字和去除停用词。

进一步地,获取停用词的方法包括结巴分词方法。

进一步地,通过大连理工大学情感词汇本体库DUTIR情感词典,得到情感词。

进一步地,通过以下步骤得到实体及情感类别已标注数据集:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所;国家计算机网络与信息安全管理中心,未经中国科学院信息工程研究所;国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010806716.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top