[发明专利]语句特征的处理方法和装置、存储介质有效
申请号: | 201911243957.8 | 申请日: | 2019-12-06 |
公开(公告)号: | CN111126046B | 公开(公告)日: | 2023-07-14 |
发明(设计)人: | 刘志煌 | 申请(专利权)人: | 腾讯云计算(北京)有限责任公司 |
主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F40/289;G06F16/35 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 周婷婷 |
地址: | 100098 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语句 特征 处理 方法 装置 存储 介质 | ||
1.一种语句特征的处理方法,其特征在于,包括:
获取待处理的目标语句,其中,所述目标语句包括N个分句,所述N为自然数;
对所述N个分句中的每个分句进行分词和词性标注,得到N个词性信息序列,其中,每个词性信息序列包括按预定顺序排列的一组第一类二元组,每个所述第一类二元组包括一个词语和所述一个词语的词性,所述词性为预定的词性集合中的词性;
在所述N个词性信息序列中确定M组目标二元组,其中,每组目标二元组的词性序列为预先确定的目标词性序列、且所述每组目标二元组包括的词语所属的特征词类别满足预定的置信度,每组目标二元组的词性序列是由所述每组目标二元组包括的词性按照所述预定顺序排列形成的序列,所述每组目标二元组中包括的所述第一类二元组的数量与所述目标词性序列中词性的数量相同,所述特征词类别是预定的特征词类别集合中的类别,所述特征词类别集合包括属性词和情感词,所述M为自然数;
将所述M组目标二元组中包括的第一组目标词语加入到属性词集合,并将所述M组目标二元组中包括的第二组目标词语加入到情感词集合,其中,所述第一组目标词语中的每个词语所属的特征词类别为所述属性词,所述第二组目标词语中的每个词语所属的特征词类别为所述情感词;
所述在所述N个词性信息序列中确定M组目标二元组,包括:
在所述N个词性信息序列中确定P组第一类二元组,其中,所述P组第一类二元组中的每组第一类二元组的所述词性序列为按所述目标词性序列中词性的数量依次从所述N个词性信息序列中取出的连续序列,P≥M;
在所述P组第一类二元组中确定M组第一类二元组,其中,所述M组第一类二元组中的每组第一类二元组包括的词语所属的特征词类别满足所述预定的置信度,其中,所述M组目标二元组为所述M组第一类二元组;
所述在所述P组第一类二元组中确定M组第一类二元组,包括:
获取所述P组第一类二元组中的每个词语所属的特征词类别,其中,所述特征词类别集合包括Q个特征词类别,Q≥2;
在的情况下,在所述P组第一类二元组中确定所述M组第一类二元组,其中,1≤J≤Q,所述M组第一类二元组中的每组第一类二元组中包括的词语所属的不同的特征词类别的数量≥J。
2.根据权利要求1所述的方法,其特征在于,所述在所述N个词性信息序列中确定P组第一类二元组,包括:
在所述目标词性序列包括K个按所述预定顺序排列的目标词性的情况下,在所述N个词性信息序列中的每个词性信息序列中查找所述K个连续的第一类二元组,其中,所述K个连续的第一类二元组中的词性按所述预定顺序形成的词性序列为所述K个按所述预定顺序排列的词性;
在查找到所述K个连续的第一类二元组的情况下,将查找到的所述K个连续的第一类二元组确定为所述P组第一类二元组中的一组第一类二元组。
3.根据权利要求1所述的方法,其特征在于,所述在所述N个词性信息序列中确定M组目标二元组之前,所述方法还包括:
获取样本语句集合,其中,所述样本语句集合包括R个样本语句,所述R个样本语句共包括T个分句,其中,T≥R≥1;
对所述T个分句中的每个分句进行分词和词性标注,得到T个词性信息序列,其中,所述T个词性信息序列中的每个词性信息序列包括按所述预定顺序排列的一组第一类二元组;
从所述T个词性信息序列中获取K个目标词性,其中,所述K个目标词性在所述T个分句中出现的次数满足预定的支持度;
将所述K个目标词性按照所述预定顺序排列,得到所述目标词性序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯云计算(北京)有限责任公司,未经腾讯云计算(北京)有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911243957.8/1.html,转载请声明来源钻瓜专利网。