[发明专利]一种基于实体识别的文本分类方法及电子装置有效
| 申请号: | 202010806716.6 | 申请日: | 2020-08-12 |
| 公开(公告)号: | CN112069312B | 公开(公告)日: | 2023-06-20 |
| 发明(设计)人: | 王树鹏;孙立远;赵忠华;张磊;王博;王勇;付培国;王泽辰;王禄恒;万欣欣;李欣 | 申请(专利权)人: | 中国科学院信息工程研究所;国家计算机网络与信息安全管理中心 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/295;G06F40/30;G06F16/9535 |
| 代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 陈艳 |
| 地址: | 100093 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 实体 识别 文本 分类 方法 电子 装置 | ||
1.一种基于实体识别的文本分类方法,其步骤包括:
1)对待检测文本进行切词,得到情感词与情感对象实体词,并通过一情感对象实体及情感类别已标注数据集判断情感对象实体词的情感类别;
2)对待检测文本进行断句,通过情感词与标注情感类别的情感对象实体词在每一句子中的词性、否定词及标点符号内容,获取各句子的情感类别;
3)依据各句子的情感类别,得到待检测文本的情感类别。
2.如权利要求1所述的方法,其特征在于,在提取待检测文本中的情感词与情感对象实体词之前,对待检测文本进行预处理;所述预处理包括:简化繁体字和去除停用词。
3.如权利要求2所述的方法,其特征在于,获取停用词的方法包括结巴分词方法。
4.如权利要求1所述的方法,其特征在于,通过大连理工大学情感词汇本体库DUTIR情感词典,得到情感词。
5.如权利要求1所述的方法,其特征在于,通过以下步骤得到情感对象实体及情感类别已标注数据集:
1)采集若干已标注情感类别样本文本,获取各已标注情感类别样本文本的情感对象实体词,并根据各已标注情感类别样本文本的情感类别,对各情感对象实体词进行标注,得到第一情感对象实体及情感类别已标注数据集;
2)对每一已标注情感类别样本文本进行分词,将第一分词结果分别输入层叠隐马尔可夫模型与条件随机场实体识别学习模型进行训练,得到层叠隐马尔可夫实体分类模型与条件随机场情感对象实体分类模型;
3)采集若干未标注情感类别样本文本,对每一未知情感类别样本文本进行分词,将第二分词结果分别输入层叠隐马尔可夫实体分类模型与条件随机场实体分类模型,分别得到第一标注情感类别的情感对象实体词集与第二标注情感类别的情感对象实体词集;
4)若第一标注情感类别的情感对象实体词集与第二标注情感类别的情感对象实体词集中情感对象实体词的情感类别标注结果相同,得到第二情感对象实体及情感类别已标注数据集;若同一未标注情感类别样本文本中一情感对象实体词的情感类别不同,则由领域专家进行情感类别判断,得到第三情感对象实体及情感类别已标注数据集;对第一标注情感类别的情感对象实体词集与第二标注情感类别的情感对象实体词集之间不同的情感对象实体词,进行人工情感对象实体词语标注及由领域专家进行情感类别判断,得到第四情感对象实体及情感类别已标注数据集;
5)结合第一情感对象实体及情感类别已标注数据集、第二情感对象实体及情感类别已标注数据集、第三情感对象实体及情感类别已标注数据集及第四情感对象实体及情感类别已标注数据集,得到情感对象实体及情感类别已标注数据集。
6.如权利要求1所述的方法,其特征在于,所述词性包括主语、否定词、谓语、宾语和定语。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所;国家计算机网络与信息安全管理中心,未经中国科学院信息工程研究所;国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010806716.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:车辆驻车控制方法及装置
- 下一篇:一种检测维格列汀中三氟乙酸的方法





