[发明专利]一种会话情感分类方法、系统、电子设备及存储介质在审
申请号: | 202110552802.3 | 申请日: | 2021-05-20 |
公开(公告)号: | CN113282749A | 公开(公告)日: | 2021-08-20 |
发明(设计)人: | 梁吉光;徐凯波 | 申请(专利权)人: | 北京明略软件系统有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/242;G06F40/289;G06K9/62 |
代理公司: | 青岛清泰联信知识产权代理有限公司 37256 | 代理人: | 赵燕 |
地址: | 100089 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 会话 情感 分类 方法 系统 电子设备 存储 介质 | ||
本申请公开了一种会话情感分类方法、系统、电子设备及存储介质,会话情感分类方法包括:会话内容处理步骤:接受会话内容后,对所述会话内容进行文本处理;字典生成步骤:从预训练词向量模型中抽取词语,将所述词语切分成字,并对所述字进行处理后组成字典;字向量获取步骤:根据所述字与所述词语的构词关系获取邻接表后,根据所述邻接表计算字向量;会话内容情感分类步骤:将所述字向量输入到深度神经网络模型后,获取所述字向量的情感分类结果。本发明对会话内容进行情感分类,避免了中文分词和开源中文预训练词向量给会话内容情感分类带来的不确定性的问题。
技术领域
本申请涉及深度学习技术领域,尤其涉及一种会话情感分类方法、系统、电子设备及存储介质。
背景技术
会话情感分析是近年来自然语言处理(Natural Language Processing,简称NLP)领域最为重要的研究任务之一,在人机对话、智能客服、智能营销等众多领域中有极大的应用。然而因为会话本身所带有的特点为字数少、口语化严重、出现错别字的概率较大,从而导致会话内容的情感分类难度加大。基于深度学习情感分析方法是当前最为主流的会话情感方法,这种方法主要先将会话内容分词,然后利用预训练模型学习得到相应词项的词向量,接着将词向量作为深度神经网络的输入进行训练预测,最后输出情感类别。由于现在大部分的自然语言处理库基本都是针对英文的,在词向量预训练方面,开源的预训练词向量模型就更少了,因此造成预训练后的词向量模型在汉语的应用要远少于英文。主要原因在于:预训练一次词向量模型成本异常巨大;中文开源的已训练好的词向量模型较少;受制于中文分词器的不同,得到的分词结果与词向量模型中的词典存在差异。换言之,因预训练模型使用的分词器与具体应用时使用的分词器存在差异导致,双方词典不匹配,即分出了词但找不到对应的向量。从而误差级联,最终导致后续分类算法精度不高。
发明内容
本申请实施例提供了一种会话情感分类方法、系统、电子设备及存储介质,以至少通过本发明解决了中文开源预训练词向量的词语覆盖面不足以及中文分词器给会话内容情感分类带来的不确定性等问题。
本发明提供了会话情感分类方法,包括:
会话内容处理步骤:接受会话内容后,对所述会话内容进行文本处理;
字典生成步骤:从预训练词向量模型中抽取词语,将所述词语切分成字,并对所述字进行处理后组成字典;
字向量获取步骤:根据所述字与所述词语的构词关系获取邻接表后,根据所述邻接表计算字向量;
会话内容情感分类步骤:将所述字向量输入到深度神经网络模型后,获取所述字向量的情感分类结果。
在上述的会话情感分类方法中,所述会话内容处理步骤包括:
会话内容获取步骤:接受用户端所产生的所述回话内容;
会话内容文本化处理步骤:将所述回话内容中的非文本类型内容转化为文本类型;
会话内容预处理步骤:将所述会话内容标准化,并将标准化会话内容切分成字序列。
在上述的会话情感分类方法中,所述字向量获取步骤包括:
词典获取步骤:根据所述字序列,读取所述预训练词向量模型后,从所述预训练词向量模型中抽取所有的所述词语,并使用所述词语组成词典;
字典获取步骤:将所述词典中的所述词语切分为单独的所述字,对切分出的所述字进行存储以及去重处理后,使用处理后的所述字组成所述字典;
邻接表获取步骤:将所述字与所述字对应的词语放入所述邻接表中,所述字为表头,所述词语放入由所述表头指向的单向链表中;
字向量计算步骤:遍历所述邻接表并根据所述邻接表,计算所述字向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110552802.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据处理方法及装置
- 下一篇:开源许可证和版权信息篡改的检测方法及系统