[发明专利]一种数据挖掘方法在审

专利信息
申请号: 201710159360.X 申请日: 2017-03-17
公开(公告)号: CN106951408A 公开(公告)日: 2017-07-14
发明(设计)人: 刘希;夏虎;刘光辉 申请(专利权)人: 国信优易数据有限公司
主分类号: G06F17/27 分类号: G06F17/27;G06F17/30
代理公司: 北京青松知识产权代理事务所(特殊普通合伙)11384 代理人: 郑青松
地址: 100070 北京市丰台区南*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 数据 挖掘 方法
【说明书】:

技术领域

发明涉及一种数据挖掘方法,具体涉及一种对观点进行挖掘的数据挖掘方法。

背景技术

随着互联网行业的飞速发展,电子商务和网络社交成为了人们生活中不可缺少的一部分,而每天人们在网络上留下评论的文本也是数量庞大且零散杂乱的。海量用户评论数据的背后隐藏着很多重要的信息,如何能够快速有效地从这些用户评论中获取用户的意见和观点,从而把握用户屯、理和市场走向是非常具有研究意义的。然而仅靠人工阅读的方式往往很难从大量的文本中全面了解用户的需求和意见,而且人工成本髙、效率低,并不适合进行大量数据的分析工作。近年来利用统计机器学习的方法,进行评论文本的观点挖掘工作,取得了较大的进展。

目前主要采用三层贝叶斯概率模型来对文本进行挖掘,然而该相关模型在观点挖掘中存在挖掘粒度不够、情感分析不准确等问题。

发明内容

针对上述技术问题,本发明提供一种从情感角度来对观点进行挖掘的数据挖掘方法。

本发明采用的技术方案如下:

本发明的实施例提供一种数据挖掘方法,在预定假设下对观点进行挖掘,所述预定假设包括:

(1)一个句子中的单词拥有相同的主题和情感;

(2)句子的情感划分为五类:负向,弱负向,中立,弱正向,正向,分别对应情感数值为1-5;

所述观点挖掘包括:

S1:对于给定的语料库,执行如下操作:

S101:产生单词分布φ~Dir(β),背景词:φB,全局特征词:φA,g,全局观点词:{φo,g,s},局部观点词:{φo,t,s},其中,A是特征词,B是背景词,O是观点词,s表示情感,取值{1,2,3,4,5};t=1,2,3,…T,T为文档中主题的个数;

S102:产生单词类型分布ρ~Beta(η);

S2:对于语料库中的每一篇文档d,执行如下操作:

S201:产生文档的主题分布θd~Dir(α);

S202:对文档中的每个主题z,产生情感分布πd,z~Beta(γ);

S3:对于文档d中的每个句子m,执行如下操作:

S301:从多项式分布Multinomial(θd)中选择主题zd,m

S302:对给定的主题zd,m,从多项式分布Multinomial(πd,z)中选择情感sd,m,z

S4:对句子m中的每个单词n,执行如下操作:

S401:基于预定假设从句子中产生每个单词wd,m,n的主题zd,m和情感sd,m,z

S402:从关于{0,1}的二项式分布Binomial(ρ)中选择单词类型ud,m,n

S403:从参数为xd,m,n关于{0,2}的多项式分布中选择单词类型分布yd,m,n

S404:基于下述公式(1)产生每个单词wd,m,n

其中,参数xd,m,n通过下述公式(2)得到:

其中,fd,m,n词wd,m,n的特征向量,λ1为fd,m,n所对应的权值,λl′是特征函数f′d,m,n所对应的权值,l的取值为{0,1,2};

S5:根据步骤S4的结果得到全局特征词、观点词和局部特征词、观点词以及背景词列表,并得到观点词对应的情感数值;

S6:建立情感云模型,用建立的情感云模型将步骤S5中得到的结果样本化,得到云模型的三个数字特征;

S7:利用情感修正算法进行修正,得到细粒度的主题-情感摘要。

可选地,通过吉布斯采样来得到每篇文档中每个句子的情感值、全局观点词、每个主题下局部特征词和局部观点词以及它们的情感值和对应概率,对于语料库中的文档d中的第m个句子,按照下述公式(3)来对其进行主题和情感的采样:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国信优易数据有限公司,未经国信优易数据有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710159360.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top