[发明专利]基于NLP社交问答网络用户兴趣能力模型构建系统及方法在审

申请号：	201711153094.6	申请日：	2017-11-20
公开（公告）号：	CN108038097A	公开（公告）日：	2018-05-15
发明（设计）人：	裴庆祺;何婷	申请（专利权）人：	西安电子科技大学
主分类号：	G06F17/27	分类号：	G06F17/27;G06F17/28;G06F17/30
代理公司：	西安长和专利代理有限公司 61227	代理人：	黄伟洪;李霞
地址：	710071 陕西省***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 nlp 社交问答网络用户兴趣能力模型构建系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明属于用户数据分析技术领域，公开了一种基于NLP社交问答网络用户兴趣能力模型构建系统及方法，根据社交问答网络中用户的行为数据，建立分析用户兴趣和能力的模型；模型通过分析问题列表、回答列表等多种相关数据，结合中文自然语言处理，以一组高维向量模型的形式表示用户兴趣和能力。本发明通过对多种数据分析，并结合中文自然语言处理技术(NLP)，对用户兴趣与能力进行分析，在无须大量数据作为训练集的情况下，通过丰富数据种类，分析结果准确率高，能更加精准地刻画用户的个性化行为特征。

技术领域

本发明属于用户数据分析技术领域，尤其涉及一种基于NLP社交问答网络用户兴趣能力模型构建系统及方法。

背景技术

近年来，随着大数据技术的深入与社交问答网络爆炸式的数据增长，通过对用户进行行为分析，可以实现更佳精准的营销服务，进而深入挖掘潜在的商业价值。用户兴趣模型是建立在一系列真实数据之上的一个抽象化的用户行为分析方法。但是，对于用户兴趣模型的构建，并没有一种既定的模式，需结合具体用户环境与可获得的数据结构考虑，本发明特别针对社交问答网络提出因地制宜的方案。此外，现有研究方向上大多将用户兴趣与能力两部分分开建模，或者是数据种类上不够丰富，信息来源不够全面，比如仅采用了用户的提问数据或回答数据。在文本分析方面，诸多算法采用了改进的LDA主题模型提取文章主题词语，但该方法需要大量数据作为训练集，对数据量要求较高，而国内相应方向可供研究的开放数据集资源有限，数据集是理论研究成果验证和实现的关键，研究方向和方案都受所能取得的数据影响，从而会在一定程度上限制了研究的深度与广度。

综上所述，本发明中针对以上问题，提出的针对用户产生内容的社交问答网络的用户行为分析方案，具有较高的实际价值。

发明内容

针对现有技术存在的问题，本发明提供了一种基于NLP社交问答网络用户兴趣能力模型构建系统及方法。

本发明是这样实现的，一种基于NLP社交问答网络用户兴趣能力模型构建方法，所述基于NLP社交问答网络用户兴趣能力模型构建方法根据社交问答网络中用户的行为数据，建立分析用户兴趣和能力的模型；模型通过分析问题列表、回答列表等多种相关数据，结合中文自然语言处理，以一组高维向量模型的形式表示用户兴趣和能力。

进一步，所述基于NLP社交问答网络用户兴趣能力模型构建方法包括：

步骤一，数据处理；

(1)数据获取，使用github上开源的zhihu-api获取目标用户的基本信息、关注关系、提问、回答、关注问题；

(2)数据预处理，以问题为单位获取每个问题的文本、评论；以用户回答为单位获取赞同数、问题文本；

步骤二，兴趣分析

(1)垃圾评论过滤；

(2)文本nlp分析；

(3)处理向量；