[发明专利]基于属性特征的商品评价情感分析系统在审
申请号: | 201910916447.6 | 申请日: | 2019-09-26 |
公开(公告)号: | CN110706028A | 公开(公告)日: | 2020-01-17 |
发明(设计)人: | 朱昱成;孙小波 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06F16/951 |
代理公司: | 51124 成都虹桥专利事务所(普通合伙) | 代理人: | 陈立志 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 属性特征 情感分析 预处理 情感词 数据预处理模块 抓取 结果展示模块 认证用户身份 算法处理模块 用户交互模块 消费者评价 后续产品 获取模块 计算分析 接收用户 目标商品 情感倾向 算法模型 提取模块 大数据 权重 算法 网址 研发 语句 量化 参考 输出 购买 展示 销售 | ||
1.基于属性特征的商品评价情感分析系统,其特征在于,包括如下模块:
用户交互模块:用于认证用户身份,接收用户输入的目标商品的网址;
评价语句获取模块:利用爬虫技术从目标商品的网址抓取商品详情和消费者评价数据;
数据预处理模块:用于对评价语句获取模块抓取的数据进行预处理;
提取模块:用于从预处理后的数据中提取商品的属性特征和属性权重,并通过语义关系计算、分词和词性标注方法,从消费者评价数据中得到与属性特征匹配的情感词,从而得到属性特征-情感词对;
算法处理模块:用于将提取的属性特征-情感词对输入到算法模型中进行计算分析,实现基于属性特征的情感分析算法并输出商品评价情感量化值;
结果展示模块:用于展示分析结果。
2.如权利要求1所述的基于属性特征的商品评价情感分析系统,其特征在于,数据预处理模块的预处理操作包括:分词、过滤、词性标注和词频统计。
3.如权利要求2所述的基于属性特征的商品评价情感分析系统,其特征在于,提取模块提取商品的属性特征包括显式属性特征和隐式属性特征,提取属性特征的具体步骤包括:
根据商品详情和消费者评价信息确定商品的显式属性特征;
通过统计词频筛选出评论集中的所有名词和名词性短语作为候选词集;
通过点互信息计算,识别出候选词集中与显式属性特征互信息值高的名词或名词性短语,并将其作为隐式属性特征。
4.如权利要求3所述的基于属性特征的商品评价情感分析系统,其特征在于,点互信息计算的公式如下:
其中,PMI(Fi,ph)为显式属性特征Fi与名词或名词性短语ph的互信息值,ph为评论集中的名词或名词性短语,p(Fi,ph)为评论集中显式属性特征Fi和名词或名词性短语ph共同出现的概率,p(Fi)为评论集中显式属性特征Fi出现的概率,p(ph)为评论集中候选属性词出现的概率。
5.如权利要求2所述的基于属性特征的商品评价情感分析系统,其特征在于,提取模块根据词频统计结果,得到商品的属性权重。
6.如权利要求1所述的基于属性特征的商品评价情感分析系统,其特征在于,算法处理模块实现基于属性特征的情感分析算法的方式如下:
将单组属性特征-情感词对<Feature(i),Opinion(j)>的情感极性基础得分Sen_scoreij定义为:
则某一商品单个属性特征的情感得分算法如下:
单个商品的情感得分如公式如下:
其中,m表示单个商品所包含的属性特征的个数,n为该属性特征中出现的情感词个数,为每个情感词前出现的程度副词强烈级别,φDegree表示相应程度副词强烈级别所对应的系数值,f为该情感词前含否定词的个数,μ表示该情感词的否定词得分值,class1-class4分别为划分的四种程度副词强烈级别,αi为属性特征的权重系数,i为属性特征编号,i∈{1,2,3,……,m},βij为第i个属性特征的第j个情感词的情感极性基础得分,βij取值范围为[-1,1],其中,正负分别对应积极与消极情感。
7.如权利要求1所述的基于属性特征的商品评价情感分析系统,其特征在于,结果展示模块展示的分析结果包括:商品各属性评分、商品各属性评分雷达图、基于属性权重的商品总评分以及系统的运行状况。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910916447.6/1.html,转载请声明来源钻瓜专利网。