[发明专利]一种基于三元组的用户评论摘要的生成方法与系统有效
| 申请号: | 201110236683.7 | 申请日: | 2011-08-17 |
| 公开(公告)号: | CN102236722A | 公开(公告)日: | 2011-11-09 |
| 发明(设计)人: | 石忠民;徐亚波;杜伟夫 | 申请(专利权)人: | 广州索答信息科技有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q30/00 |
| 代理公司: | 广州市越秀区哲力专利商标事务所(普通合伙) 44288 | 代理人: | 汤喜友 |
| 地址: | 510663 广东省广州市萝岗区*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 三元 用户 评论 摘要 生成 方法 系统 | ||
1.一种基于三元组的用户评论摘要的生成方法,其特征在于,包括:
步骤1.建立对象的特征词库、映射词表与情感词库,并根据特征词库中的特征构建对象的特征树,其中,映射词表中的映射词与特征词库中的特征映射对应,情感词库包括正面情感词库和负面情感词库,特征树顶端的根节点是对象,根节点下的各层叶子节点是对象的特征,并且下一层叶子节点是对应的上一层叶子节点的子特征,上一层叶子节点是对应的下一层叶子节点的父特征;
步骤2.从互联网定向抓取对象的用户评论网页;
步骤3.接收用户评论网页中对象所有的用户评论;
步骤4.对每一个用户评论逐一进行如下处理,生成各自的评论摘要:
步骤41.根据特征词库和映射词表抽取对象的特征;
步骤42.根据情感词库识别情感词;
步骤43.搭配特征和情感词,生成基于对象、特征、情感词的评论三元组;
步骤44.抽取评论三元组生成该用户评论的评论摘要;
以及,该方法还包括:
步骤5.归纳整合所有用户评论的评论三元组,将以特征树第一层叶子节点以下的叶子节点为特征的评论三元组的特征归结到其对应的第一层叶子节点上,生成全部以特征树第一层叶子节点为特征的决策三元组;
步骤6.计算特征和情感词极性相同的决策三元组的数量,如果数量等于1,用这个决策三元组和数量组合来表示这个决策三元组,如果数量大于1,用其中任意一个决策三元组和数量组合来表示这些具有相同特征和情感词极性的决策三元组;
步骤7.以决策三元组和数量组合的表示形式抽取所有的决策三元组生成所有用户评论的决策摘要。
2.根据权利要求1所述的一种基于三元组的用户评论摘要的生成方法,其特征在于,所述步骤41包括:
步骤411.将用户评论分成句子;
步骤412.遍历句子中的每一个词,判断其是否在特征词库中出现,如果出现,抽取出来作为特征,如果没有出现在特征词库中但出现在映射词表中,抽取特征词库中与该词映射对应的特征出来作为特征。
3.根据权利要求1所述的一种基于三元组的用户评论摘要的生成方法,其特征在于,所述步骤42包括:
步骤421.将用户评论分成句子;
步骤422.遍历句子中的每一个词,将出现在情感词库中的词抽取出来作为情感词;
步骤423.根据情感词库的极性判断抽取出来的情感词的极性。
4.根据权利要求1所述的一种基于三元组的用户评论摘要的生成方法,其特征在于,所述步骤43包括:
步骤431.从训练样本中提取三元组的特征模板;
步骤432.使用SVM分类方法根据特征模板训练一个分类器;
步骤433.利用语法规则对特征和情感词进行组合,生成三元组;
步骤434.利用分类器对特征和情感词进行搭配,生成三元组;
步骤435.利用人工标注的候选三元组集对由语法规则及分类器生成的所有三元组进行过滤,去掉特征和情感词搭配不合理的三元组,得到评论三元组。
5.根据权利要求1所述的一种基于三元组的用户评论摘要的生成方法,其特征在于,所述步骤6还包括计算正面决策三元组的数量和负面决策三元组的数量,所述步骤7还包括抽取该正面决策三元组的数量和负面决策三元组的数量作为所述决策摘要的内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州索答信息科技有限公司,未经广州索答信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110236683.7/1.html,转载请声明来源钻瓜专利网。





