[发明专利]一种评论标签生成方法、装置和计算设备有效
申请号: | 202010059910.2 | 申请日: | 2020-01-19 |
公开(公告)号: | CN111241290B | 公开(公告)日: | 2023-05-30 |
发明(设计)人: | 寇凯;息振兴;史立华;王田利;付一韬;杨林凤;谢健聪 | 申请(专利权)人: | 车智互联(北京)科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/242;G06F40/289;G06F40/30 |
代理公司: | 北京思睿峰知识产权代理有限公司 11396 | 代理人: | 史小娟;谢建云 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 评论 标签 生成 方法 装置 计算 设备 | ||
1.一种评论标签生成方法,在计算设备中执行,所述计算设备中存储有规则集,所述规则集中的每个元素为评价维度与对应的标签生成规则的关联关系,所述方法包括步骤:
提取从目标评论中切分出的多个单维度子句,所述单维度子句是维度词和情感词均只有一个的子句,其中,所述维度词代表所述评价维度,所述评价维度指的是评价类别、评价方面或指标体系,是一种细粒度的评价维度,所述评价维度包括从顶级到最细层级的路径关系,即从大类到小类的路径关系;基于预先存储的标准词词典,将各单维度子句的维度词和情感词分别替换为对应的维度标准词和情感标准词;
对于每个单维度子句,如果基于其替换后的标准词能够在所述规则集中匹配到对应的标签生成规则,则将该单维度子句判定为目标单维度子句;
基于每个目标单维度子句所匹配上的标签生成规则生成该目标单维度子句的子句标签,从而得到所述目标评论的评论标签;
其中,所述提取从目标评论中切分出的多个单维度子句的步骤包括:
将该目标评论切分为多个短句,并对该多个短句进行分词处理,以识别其中同时具有维度词和情感词的目标短句;
当所述目标短句超过预定字数或者存在两个以上情感词时,基于预先训练好的分句模型将该目标短句切分为多个单维度子句。
2.如权利要求1所述的方法,还包括步骤:
采用情感分析模型对每个目标单维度子句进行情感分析,得到该目标单维度子句的情感极性,所述情感极性包括正向情感、负向情感和中性情感中的至少一种。
3.如权利要求1所述的方法,其中,所述将该目标评论切分为多个短句的步骤包括:
根据目标评论的标点符号将该目标评论切分为多个短句;
其中,若所述目标评论没有标点符号,则基于所述分句模型将该目标评论切分为多个单维度子句。
4.如权利要求1所述的方法,其中,所述将该目标评论切分为多个短句的步骤包括:
剔除具有特殊句式的目标评论,再将剩下的目标评论切分为多个短句,所述特殊句式包括反问句。
5.如权利要求1-4中任一项所述的方法,其中,所述对多个短句进行分词处理的步骤包括:
采用分词模型对每个短句进行分词处理,提取其中的维度词、情感词和过滤词中的至少一种,该些词分别代表评价维度、情感倾向和干扰信息。
6.如权利要求5所述的方法,其中,
所述标准词词典包括维度词词典、情感词词典、过滤词词典和宏文件中的至少一种;
所述宏文件代表维度词与对应的可修饰情感词的关联关系,所述分词模型中存储有所有标准词词典中的词。
7.如权利要求5所述的方法,还包括步骤:
训练多义词分类器,并根据该分类器确定多义词属于情感词还是程度词,或者确定多义词属于名词还是情感词。
8.如权利要求1所述的方法,其中,
所述分句模型适于输出句子中切分符号加入位置的前字符和后字符,以在该前字符和后字符之间加入切分符号,从而将句子切分为多个单维度子句。
9.如权利要求1所述的方法,还包括所述分句模型的训练步骤:
获取多个已经切分为单维度子句的文本内容,将其作为训练集对构建好的分句模型进行训练,得到训练好的分句模型。
10.如权利要求1-4中任一项所述的方法,
所述标签生成规则包括多个占位符,每个占位符代表一种标准词X,且多个占位符之间通过逻辑运算符号连接;
其中,所述标准词X包括维度标准词、与该维度相关的情感标准词、以及过滤标准词中的至少一种,所述情感标准词包括通用情感词、正向情感词和负向情感词中的至少一种。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于车智互联(北京)科技有限公司,未经车智互联(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010059910.2/1.html,转载请声明来源钻瓜专利网。