[发明专利]基于字符级卷积神经网络的民宿顾客意见挖掘方法有效
| 申请号: | 201910117188.0 | 申请日: | 2019-02-15 |
| 公开(公告)号: | CN109829166B | 公开(公告)日: | 2022-12-27 |
| 发明(设计)人: | 杨有;张振;罗凌;余平;尚晋 | 申请(专利权)人: | 重庆师范大学 |
| 主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289;G06Q30/02;G06Q50/12 |
| 代理公司: | 北京东方盛凡知识产权代理有限公司 11562 | 代理人: | 李娜 |
| 地址: | 400047 *** | 国省代码: | 重庆;50 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 字符 卷积 神经网络 顾客 意见 挖掘 方法 | ||
1.基于字符级卷积神经网络的民宿顾客意见挖掘方法,其特征在于,包括以下步骤:
步骤一:在线民宿评论采集与预处理,构建网络爬虫,采集全部民宿评论建立出民宿字典,然后利用哈工大开源LTP词性标注功能将标点符号利用换行符进行替代,将评论中的主题句进行分解,形成主题评价文本;
步骤二:主题聚类,利用TF-IDF公式对主题评价文本进行特征提取和向量化之后,使用pyLDAvis对民宿评论进行可视化的主题聚类,得到可视化聚类结果,再按照簇内相似度高,簇间相似度低的主题选取标准选择初始文本文档数k,得到初始模型,再计算各主题t之间的相关性;
公式中N是总体文本文档数,T为总词条数,其中含有词条t的文本文档数是x;
步骤三:利用于民宿规范文件和可视化聚类结果辅助构建民宿主题词典;
步骤四:通过属性词匹配的方式找出分句后主题评价文本内对应的评价条数,然后对对应主题的评价条数进行统计;
步骤五:基于朴素贝叶斯的弱监督预分类,通过网络爬虫自动标注部分不具有追评的原评论,假设k为评论的关键词数,j为类别数,评价有两类情感,通过对文本词频向量化的方式计算一个评价的后验概率,输出概率大于0.5,即认为可预分类成功;
步骤六:基于C-CNN-SA的民宿评论情感分析,将字符级的非结构化评论当做原始信号,按照字符进行去重,并按照字符频率进行降序排列建立字符表,通过查询字符表中的位置ID的方式将评论向量化,并且构建一维卷积核的卷积神经网络进行特征提取,通过一层全局最大池化层采样和两层全连接层,最后通过softmax函数输出得到情感极性,通过Keras神经网络工具对本模型的参数进行打印;
步骤七:对一维卷积核的卷积神经网络特征提取后得到情感极性进行情感可视化,对比多个主题下的顾客意见倾向,以对比后的多个主题下的顾客意见倾向进行针对性的改善,以此来提高民宿的整体满意度;
步骤八:验证模型,使用十折交叉验证的模型评估方法,在等同条件下进行10次实验,使用平均测试集准确度、平均精确度、平均召回率和平均F值作为评价指标进行模型有效性的验证。
2.根据权利要求1所述的基于字符级卷积神经网络的民宿顾客意见挖掘方法,其特征在于:
特征项在一个类别中不同的类别间的分布情况以及特征词的位置因素对文本的区分度,词条出现在文本文档的不同位置时,对区分度的贡献大小是不一样的,利用TF-IDF方法来计算特征词的权重,词w在ct类中的改进IDF计算公式如公式(2)所示:
公式(2)中,N是总体文本文档数,T为总词条数,其中含有词条t的文本文档数是x,而ct的文本文档数为y,除ct外包含词条t的文本文档数为k。
3.根据权利要求1所述的基于字符级卷积神经网络的民宿顾客意见挖掘方法,其特征在于:所述步骤二中主题相关性计算如公式(3)所示:
relevance(term_w|topic_t)=λ*p(w|t)+(1-λ)*p(w|t)/p(w) (3)
公式(3)中,某个词语主题的相关性,由λ参数来调节,如果λ接近1,那么在该主题t下更频繁出现的词w,跟主题t更相关;如果λ越接近0,那么该主题t下更特殊、更独有的词w,跟主题t更相关,通过调节λ的大小来改变领域词语term_w跟主题topic_t的相关性。
4.根据权利要求1所述的基于字符级卷积神经网络的民宿顾客意见挖掘方法,其特征在于:所述步骤二中文本文档数k的取值先参考民宿标准文件,再利用实验通过k=6为基准,采用依次升高k值的方法,通过减少主体之间的交叉,观察主题不覆盖的最小k值作为主题数,进行对于主题属性词的选择。
5.根据权利要求1所述的基于字符级卷积神经网络的民宿顾客意见挖掘方法,其特征在于:所述步骤五中输出概率的计算公式如公式(4)所示:
为了剔除虚假评论,增加情感分析的准确性,使用预分类作为数据清洗,预分类时,使用0和1的标签,分别代表消极和积极,输出概率值大于0.9作为置信度高的积极文本,输出概率小于0.1的作为置信度高的消极文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆师范大学,未经重庆师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910117188.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自媒体文章价值评估方法及系统
- 下一篇:一种分词处理方法和移动终端





