[发明专利]一种平台留言文本挖掘方法及系统在审
申请号: | 202010597310.1 | 申请日: | 2020-06-28 |
公开(公告)号: | CN111930936A | 公开(公告)日: | 2020-11-13 |
发明(设计)人: | 王红;庄鲁贺;韩书;李威;张慧 | 申请(专利权)人: | 山东师范大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06N3/04;G06N3/08 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 李琳 |
地址: | 250014 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 平台 留言 文本 挖掘 方法 系统 | ||
1.一种平台留言文本挖掘方法,其特征在于,包括:
对获取的历史平台留言信息进行数据标记,得到对应的标记类别;
根据历史平台留言信息和对应的标记类别训练构建的长短期记忆网络模型;
以训练后的长短期记忆网络模型对待分类平台留言信息进行分类,得到待分类平台留言信息所属的标记类别;
将任一标记类别下平台留言信息的留言编号和留言主题合并为合并列,对合并列进行聚类,得到当前标记类别下的留言类簇,根据留言类簇的热度得到当前标记类别下的热点留言类簇对应的热点平台留言信息。
2.如权利要求1所述的一种平台留言文本挖掘方法,其特征在于,对获取的历史平台留言信息进行预处理,包括:
计算历史平台留言信息缺失值比例,确定缺失值的范围;根据按照缺失值比例,清理缺失值所在的平台留言信息或填充缺失值;
采用jieba分词方法,构造前缀词典,根据前缀词典对历史平台留言信息进行切分,根据切分位置,构造有向无环图,通过动态规划算法,计算最大概率路径,得到最终的分词切分形式,对分词后的历史平台留言信息进行删除停用词操作。
3.如权利要求1所述的一种平台留言文本挖掘方法,其特征在于,对合并列进行预处理,包括缺失值处理、分词操作和删除停用词操作。
4.如权利要求1所述的一种平台留言文本挖掘方法,其特征在于,对合并列进行分词操作后,采用词袋模型统计每个词出现的次数,得到基于词的特征,将词与对应的词频合并,完成向量化,得到每个词在各个历史平台留言信息中形成的词向量,继而进行TF-IDF预处理。
5.如权利要求4所述的一种平台留言文本挖掘方法,其特征在于,对TF-IDF预处理后的合并列采用主成分分析法进行降维处理。
6.如权利要求5所述的一种平台留言文本挖掘方法,其特征在于,对降维后的合并列采用K-means聚类算法进行聚类。
7.如权利要求1所述的一种平台留言文本挖掘方法,其特征在于,计算留言类簇的热度,包括:
提取出留言类簇平台留言信息所对应的反对数和点赞数,对留言类簇内所有平台留言信息的反对数和点赞数分别进行加和,得出留言类簇的反对数和点赞数;采用Reddit评论排名算法计算该留言类簇的热度。
8.一种平台留言文本挖掘系统,其特征在于,包括:
标记模块,用于对获取的历史平台留言信息进行数据标记,得到对应的标记类别;
训练模块,用于根据历史平台留言信息和对应的标记类别训练构建的长短期记忆网络模型;
分类模块,用于以训练后的长短期记忆网络模型对待分类平台留言信息进行分类,得到待分类平台留言信息所属的标记类别;
聚类模块,用于将任一标记类别下平台留言信息的留言编号和留言主题合并为合并列,对合并列进行聚类,得到当前标记类别下的留言类簇,根据留言类簇的热度得到当前标记类别下的热点留言类簇对应的热点平台留言信息。
9.一种电子设备,其特征在于,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-7任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东师范大学,未经山东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010597310.1/1.html,转载请声明来源钻瓜专利网。