[发明专利]语句特征的处理方法和装置、存储介质有效
申请号: | 201911243957.8 | 申请日: | 2019-12-06 |
公开(公告)号: | CN111126046B | 公开(公告)日: | 2023-07-14 |
发明(设计)人: | 刘志煌 | 申请(专利权)人: | 腾讯云计算(北京)有限责任公司 |
主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F40/289;G06F16/35 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 周婷婷 |
地址: | 100098 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语句 特征 处理 方法 装置 存储 介质 | ||
本发明公开了一种语句特征的处理方法和装置、存储介质。其中,该方法包括:获取待处理的目标语句,其中,目标语句包括N个分句;对N个分句中的每个分句进行分词和词性标注,得到N个词性信息序列,其中,每个词性信息序列包括按预定顺序排列的一组第一类二元组;在N个词性信息序列中确定M组目标二元组;将M组目标二元组中包括的第一组目标词语加入到属性词集合,并将M组目标二元组中包括的第二组目标词语加入到情感词集合。本发明解决了相关技术文本的情感分析中抽取评价要素信息依赖于词典以及语言专家制定的规则,导致可扩展性和泛化能力较差的技术问题。
技术领域
本发明涉及计算机领域,具体而言,涉及一种语句特征的处理方法和装置、存储介质。
背景技术
现有技术中对于文本的情感分析首先要进行评价要素抽取,即从文本中挖掘评价要素。例如对于“服务很好,设施蛮不错,但是房间隔音实在太差”这段文本,需要提取的评价要素包括服务-好、设施-不错、隔音-差。评价要素抽取可归结为两种方法,一种是基于词典、模板提取细粒度评价要素;另一种则将细粒度要素的挖掘和提取转变成序列标注问题,采用基于条件随机场、隐马尔可夫模型等序列标注方法提取评价要素。接下来需要对评价对象进行情感打分,通过构建分类模型或情感权值处理模块进行情感倾向判别。
但是现有方法存在以下问题:1)抽取评价要素信息依赖于词典以及语言专家制定的规则,可扩展性和泛化能力较差,对于网络新词和领域新词无法识别,导致抽取的评价要素信息不完整。2)基于条件随机场、隐马尔可夫模型等序列标注的要素抽取方法无法解决评价词和评价对象之间长距离依赖的问题。
针对相关技术中的上述问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供一种语句特征的处理方法和装置、存储介质,以至少解决相关技术文本的情感分析中抽取评价要素信息依赖于词典以及语言专家制定的规则,导致可扩展性和泛化能力较差的技术问题。
根据本发明实施例的一个方面,提供了一种语句特征的处理装置,包括:第一获取模块,用于获取待处理的目标语句,其中,所述目标语句包括N个分句,所述N为自然数;第一处理模块,用于对所述N个分句中的每个分句进行分词和词性标注,得到N个词性信息序列,其中,每个词性信息序列包括按预定顺序排列的一组第一类二元组,每个所述第一类二元组包括一个词语和所述一个词语的词性,所述词性为预定的词性集合中的词性;第一确定模块,用于在所述N个词性信息序列中确定M组目标二元组,其中,每组目标二元组的词性序列为预先确定的目标词性序列、且所述每组目标二元组包括的词语所属的特征词类别满足预定的置信度,每组目标二元组的词性序列是由所述每组目标二元组包括的词性按照所述预定顺序排列形成的序列,所述每组目标二元组中包括的所述第一类二元组的数量与所述目标词性序列中词性的数量相同,所述特征词类别是预定的特征词类别集合中的类别,所述特征词类别集合包括属性词和情感词,所述M为自然数;加入模块,用于将所述M组目标二元组中包括的第一组目标词语加入到属性词集合,并将所述M组目标二元组中包括的第二组目标词语加入到情感词集合,其中,所述第一组目标词语中的每个词语所属的特征词类别为所述属性词,所述第二组目标词语中的每个词语所属的特征词类别为所述情感词。。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯云计算(北京)有限责任公司,未经腾讯云计算(北京)有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911243957.8/2.html,转载请声明来源钻瓜专利网。