[发明专利]一种基于区域卷积神经网络的问答社区标签推荐方法有效
申请号: | 201811139465.X | 申请日: | 2018-09-28 |
公开(公告)号: | CN109086463B | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | 刘进;周平义;储玮;李兵;崔晓晖;陈旭;施泽洋;彭新宇;赵发凯 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/9535;G06N3/04 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 鲁力 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 区域 卷积 神经网络 问答 社区 标签 推荐 方法 | ||
本发明涉及一种基于区域卷积神经网络的问答社区标签推荐方法,具体是涉及对问答社区中的问题数据集先进行数据预处理,再通过建立词典生成句向量,在卷积层中,对数据集中的每个问题中的每个单词都进行词嵌入处理,然后用区域卷积神经网络模型对句向量进行训练,最后利用训练完成的模型对问答社区中的新问题进行标签推荐。具有如下突出特点和优点:第一,引入双向循环卷积层,结合单词的上下文对单词进行表示,可以更好的反应句子中单词之间的联系,双向循环结构可以准确抓取单词的上下文;第二,卷积神经网络处理大型图片的能力使得其可以处理较大的数据集;第三,卷积神经网络在图片处理中的迁移性,使得其用在标签推荐中也能有很好的迁移性。
技术领域
本发明涉及一种基于区域卷积神经网络的问答社区标签推荐方法。
背景技术
随着互联网的快速发展,越来越多的IT爱好者在互联网上寻求帮助,分享经验,以及学习新技术知识,由此出现了各种开发者问答社区,像StackOverflow和Freeecode这样的软件信息站点可以为全世界的开发者提供信息共享和交流。
为了便于正确的分类和高效的搜索,开发者需要为他们的发布提供标签。然而,标签本质上是一个不协调的过程,不仅取决于开发者对自己帖子的理解,还取决于其他因素,包括开发者的英语技能和对现有帖子的了解。
因此,即使现有的标签已经足够,开发者也不断创建新的标签。最终的效果是,随着时间的推移,越来越多的标签具有严重的冗余性,并有更多的新标签发布,从而导致任何基于标签的算法效率和准确性都会降低。
目前国内外针对问答社区的标签推荐,有基于模糊集合理论,考虑了系统的动态演化的标签推荐方法,有包含多标签排名组件,基于相似度的排名组件和基于标签项的排名组件的标签推荐方法,还有基于贝叶斯推理组件和频率推理组件的标签推荐方法。
上述基于模糊集合理论和相似度排名及贝叶斯推理的方法存在以下不足:
(1)它们应用限制在相对较小的数据集中;
(2)它们是不可扩展的,并且不能够处理问答社区中的连续更新;
(3)它们的召回率和精度指标表现并不理想。
发明内容
本发明的目的在于针对目前问答社区标签推荐方面的不足,提供一种基于区域卷积神经网络的标签推荐方法,对问答社区中的问题数据集先进行数据预处理,再通过建立词典生成句向量,在卷积层中,对数据集中的每个问题中的每个单词都进行词嵌入处理,然后用区域卷积神经网络模型对句向量进行训练,最后利用训练完成的模型对问答社区中的新问题进行标签推荐。
为了达到上述的目的,本发明的构思如下:首先使用scrapy框架从StackOverflow等问答社区上获取问题数据,并用脚本对数据进行清洗,然后对清洗后的数据建立词典并利用词典生成训练集矩阵,利用Mikilovo方法将训练集的矩阵变成三维矩阵,再用区域卷积神经网络模型对句向量进行训练以得到合适的模型参数,最后利用训练得到的模型新问题进行标签推荐。
根据以上构思,本发明采用的一个技术方案是:提供一种基于区域卷积神经网络的问答社区标签推荐方法,其特征在于:包括以下步骤:
步骤1、使用scrapy框架从问答社区上获取问题数据集和标签集;
步骤2、对每条问题数据进行数据清洗,去除问题中的标点符号,多余空格和代码,只留下单词,并将单词全部转化为小写,得到清洗后的数据集data;
步骤3、将数据集data分为规模为n的训练集train和规模为m的测试集test;
步骤4、对训练集train建立词典D:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811139465.X/2.html,转载请声明来源钻瓜专利网。