[发明专利]一种抽取用户细粒度典型意见数据处理系统及方法在审
申请号: | 201911353588.8 | 申请日: | 2019-12-24 |
公开(公告)号: | CN111091000A | 公开(公告)日: | 2020-05-01 |
发明(设计)人: | 刘宝强;肖云飞 | 申请(专利权)人: | 深圳视界信息技术有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/295;G06F16/215;G06F16/25;G06K9/62;G06Q30/02 |
代理公司: | 深圳市汇信知识产权代理有限公司 44477 | 代理人: | 赵英杰 |
地址: | 518000 广东省深圳市南山区粤*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 抽取 用户 细粒度 典型 意见 数据处理系统 方法 | ||
本发明属于数据处理技术领域,公开了一种抽取用户细粒度典型意见数据处理系统及方法,对数据进行清洗,过滤掉噪声数据;对清洗后的数据进行分字,分词;使用词嵌入模型训练字向量、词向量表示,生成相应的文件;定义产品常见属性;抽取用户评论中与产品相关的属性;将所有抽取到的属性文本采用字向量加权求平均值的方法转换为向量表示;对文本进行聚类;得到产品不同属性的用户典型意见。本发明抽取出用户评论中与产品相关的属性文本,将相同属性、相同情感倾向的文本尽可能地聚到同一簇中,得到不同属性的用户典型意见。有效地提高了聚类结果的准确性,并使得聚类结果的颗粒度更小,快速得到用户对产品不同属性的典型意见。
技术领域
本发明属于数据处理技术领域,尤其涉及一种抽取用户细粒度典型意见数据处理系统及方法。
背景技术
目前,最接近的现有技术:随着互联网技术的不断发展,网络购物改变了我们的生活方式,为我们的生活提供了极大的便捷。通常当我们在某一电商平台上买到某一款产品后,会将自己的购物体验以及使用感受发表出来,以表达自己对该产品的观点。而这些观点对于商家以及想要购买该产品的用户而言是非常重要的。商家通过对大量的用户评论进行分析,可以了解用户对该产品的看法,并对用户不满意的点进行改进,以帮助产品的优化。而想要购买该产品的用户,可以参考已经购买过该产品用户的使用体验,辅助决策,决定是否购买该产品。
目前已经有相关技术方法,可以从用户评论中得到用户对该产品的观点。常见方法包括:(1)通过文本多分类的方法,得到用户对该产品的情感倾向以表达用户对此产品的看法。该方法并不能得到用户对该产品某一属性特有的看法,而大多数情况下,对于同一产品不同的属性,用户所持有的观点是不相同的。(2)通过文本多标签多分类的方法,得到用户对该产品不同属性的情感倾向以表达用户对此产品不同属性的看法。该方法并不能得到用户对不同属性观点的具体表述,只能得到不同属性的情感倾向。但很多时候,通过对属性观点表述的具体阅读,可以得到更多的信息。(3)通过对文本数据直接进行聚类,得到用户对该产品的典型意见。由于文本评论中会存在与该产品无关的描述,因此导致聚类的结果不理想;另外,通过对评论直接进行聚类,可以得到用户对该产品的整体观点,但不能得到用户对该产品不同属性的观点。
综上所述,现有技术存在的问题是:现有技术通过对文本数据直接进行聚类导致聚类的结果不理想;另外,通过对评论直接进行聚类,可以得到用户对该产品的整体观点,但不能得到用户对该产品不同属性的观点。
解决上述技术问题的难度:通常聚类结果由两方面来决定:聚类数据、聚类算法。为了准确得到用户细粒度典型意见,需要对聚类数据进行预处理,使得每一个聚类文本,都带有明显的特征。本发明通过命名实体识别的方法,抽取用户评论文本中提及到的产品属性,将一条评论数据拆分成多条数据,让每一条数据,能够完整的表达用户对产品某一属性的意见,并且过滤掉无关信息。另外,为了使聚类算法能够更好的将同一属性同一意见聚类到同一簇中,不同的属性不同意见聚类到不同簇中,需根据聚类数据的特征,对聚类算法进行调整。本发明对聚类的初始中心点进行了自定义并对聚类结果进行了调整,使聚类的结果更加准确。
解决上述技术问题的意义:扩展了聚类方法的应用领域。由于现有聚类方法存在的效果缺陷,使得它只能成为人们进行文本分析时的一种辅助手段,通常先通过聚类方法对数据分布特征进行大致了解,然后再通过自然语言处理技术中别的方法,对不同特征的数据进行处理,得到数据的具体信息。而上述技术问题的解决,扩展了聚类方法的应用领域,通过聚类方法可以直接得到数据的详细信息,即用户对产品不同属性的典型意见。另外,上述技术问题的解决,为抽取用户细粒度典型意见提出了一种全新的简单高效的方法。对于用户细粒度典型意见的抽取目前通常采用多标签分类的方法来实现,但该方法只能得到用户对产品不同属性总体的意见,并不能得到用户意见的具体描述,通过上述技术问题的解决,既可以得到用户对产品不同属性的总体意见,也可以得到该意见的具体描述。
发明内容
针对现有技术存在的问题,本发明提供了一种抽取用户细粒度典型意见数据处理系统及方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳视界信息技术有限公司,未经深圳视界信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911353588.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种针对铜管加工的弯管器
- 下一篇:煤矿井下巷道用除尘系统