[发明专利]一种用户意见抽取方法及系统在审
申请号: | 201710896653.6 | 申请日: | 2017-09-28 |
公开(公告)号: | CN107704558A | 公开(公告)日: | 2018-02-16 |
发明(设计)人: | 田伟伟;洪煦;朱劲松;陈伟强 | 申请(专利权)人: | 北京车慧互动广告有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京市维诗律师事务所11393 | 代理人: | 杨安进,徐永浩 |
地址: | 100044 北京市海淀区西直*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用户 意见 抽取 方法 系统 | ||
技术领域
本发明涉及大数据领域,尤其涉及一种用户意见抽取方法及系统。
背景技术
随着互联网的快速发展,细分领域的网站越来越多,例如汽车、餐饮、住宿等服务的网站。很多用户在细分领域中,伴随着自己的实际经验,会针对自己的服务发表自己的观点。用户的反馈对产品或者服务提供者具有重要的意义,特别是追踪用户对产品或者服务的舆情走向以及对产品或服务的后续改进。
对用户反馈数据的意见抽取是大数据分析的重点和难点,通过自动抽取方法,从海量的用户反馈数据中抽取大多数用户的关注点以进一步改进产品或服务。
现有技术中,用户意见的抽取技术方案主要包括:
1、通过人力从网上大量浏览用户对该产品的反馈结果,然后总结抽取,得到用户意见;
2、通过自然语言处理(NLP)相关算法进行典型意见抽取,首先使用词袋模型(bag-of-words,BOW)对文本提取特征向量,然后使用k-means、AKM或自组织映射(SOM)进行聚类分析得到类簇,进而得到用户意见。
通过人工手动的收集整理某产品用户的反馈意见,并将其通过一些辅助工具,比如excel等进行人工归纳总结,抽取出用户意见需要占用大量的人力资源,并且当数据量比较大的时候,比如公众号、头条号等用户量巨大的自媒体,受到内存以及计算能力等硬件资源的限制,很难全面考虑所有样本数据并进行总结。
人工总结的方式很难应用到自动化实现中,比如时下比较流行的舆情监控,要求系统可以实时把握某产品或者某领域的舆情走势,通过自动抓取互联网上所有相关数据并进行实时分析处理,得到群众对于该产品的整体舆情,而人工总结的方式显然不能满足该应用场景。
已有的通过BOW模型结合聚类算法得到用户典型意见方法更多的适合长文本,比如新闻数据,这样文本特征才不至于过于稀疏,但用户的评论数据或者论坛的跟帖数据都是短语句表示,映射到几万维度的特征空间过于稀疏,无法用后续模型进行有效的处理,故而该方案取得的效果一般。
发明内容
有鉴于此,本发明提供一种用户意见抽取方法及系统,以提供采集用户意见以及用户情感评分的技术方案。
本发明提供了一种用户意见抽取方法,该方法包括:
根据词向量模型处理文本数据,得到所述文本数据中语料的词向量集合;
根据所述词向量对句子进行处理得到句子向量;
对所述句子向量进行聚类分析得到用户的意见聚类簇;
抽取所述意见聚类簇的中心用户评论得到用户意见。
优选地,该方法还包括:
通过网络爬虫从网络抓取文本数据;
对文本数据进行预处理。
优选地,所述根据所述词向量对句子进行处理得到句子向量包括:
将句子中的词向量相加,或者对句子中的词向量进行加权平均。
优选地,该方法还包括:
根据循环神经网络模型处理所述句子向量得到用户意见的情感评分。
优选地,所述根据循环神经网络模型处理所述句子向量得到用户意见的情感评分包括:
根据所述词向量模型处理用户意见,得到所述用户意见的词向量;
对所述用户意见的词向量进行一维卷积;
对所述一维卷积的结果进行最大池化;
将所述最大池化的结果输入循环神经网络模型;
对所述循环神经网络模型输出的结果进行分类,得到用户意见的情感评分。
本发明提供了一种用户意见抽取系统,该系统包括:
词向量模块,用于根据词向量模型处理文本数据,得到所述文本数据中语料的词向量集合;
句子向量模块,用于根据所述词向量对句子进行处理得到句子向量;
聚类模块,用于对所述句子向量进行聚类分析得到用户的意见聚类簇;
抽取模块,用于抽取所述意见聚类簇的中心用户评论得到用户意见。
优选地,该系统还包括:
抓取模块,用于通过网络爬虫从网络抓取文本数据;
预处理模块,用于对文本数据进行预处理。
优选地,所述句子向量模块还用于将句子中的词向量相加,或者对句子中的词向量进行加权平均。
优选地,该系统还包括评分模块,用于根据循环神经网络模型处理所述句子向量得到用户意见的情感评分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京车慧互动广告有限公司,未经北京车慧互动广告有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710896653.6/2.html,转载请声明来源钻瓜专利网。