[发明专利]基于NLP社交问答网络用户兴趣能力模型构建系统及方法在审

申请号：	201711153094.6	申请日：	2017-11-20
公开（公告）号：	CN108038097A	公开（公告）日：	2018-05-15
发明（设计）人：	裴庆祺;何婷	申请（专利权）人：	西安电子科技大学
主分类号：	G06F17/27	分类号：	G06F17/27;G06F17/28;G06F17/30
代理公司：	西安长和专利代理有限公司 61227	代理人：	黄伟洪;李霞
地址：	710071 陕西省***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 nlp 社交问答网络用户兴趣能力模型构建系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于NLP社交问答网络用户兴趣能力模型构建方法，其特征在于，所述基于NLP社交问答网络用户兴趣能力模型构建方法根据社交问答网络中用户的行为数据，建立分析用户兴趣和能力的模型；模型通过分析问题列表、回答列表等多种相关数据，结合中文自然语言处理，以一组高维向量模型的形式表示用户兴趣和能力。

2.如权利要求1所述的基于NLP社交问答网络用户兴趣能力模型构建方法，其特征在于，所述基于NLP社交问答网络用户兴趣能力模型构建方法包括：

步骤一，数据处理；

(1)数据获取，使用github上开源的zhihu-api获取目标用户的基本信息、关注关系、提问、回答、关注问题；

(2)数据预处理，以问题为单位获取每个问题的文本、评论；以用户回答为单位获取赞同数、问题文本；

步骤二，兴趣分析

(1)垃圾评论过滤；

(2)文本nlp分析；

(3)处理向量；

步骤三，能力分析

(1)文本nlp分析，将回答文本与原问题文本合并；合并文本，将每个问题文本与过滤后的评论文本合并，得到待分析文本ti，遍历所有问题；提取关键词，利用Bosonnlp的NodeSDK，将文本ti上传到分析服务器，获取关键词分析后的每个词语的权重，取前m个关键词构成一组向量si＝(k1，k2，…，km)；文本分类提取，利用Acnlp的python SDK，获取文本t所属的一个列表格式多分类标签tagi＝(w1，w2，w3)；

(2)加权处理，回答赞同数服从高斯分布，计算更新权重。

3.如权利要求2所述的基于NLP社交问答网络用户兴趣能力模型构建方法，其特征在于，所述垃圾评论过滤包括：

(1)数据预处理，采用分词工具对问题文本和评论进行分词，并剔除全是数字、字母或者标点符号的垃圾评论；

(2)特征提取，根据用户问答内容的特点，引入4个特征来表示评论并提取特征值：超连接数、广告词数、名词度、评论赞同数；

(3)评论过滤，采用adaboost算法对评论过滤：对给定的n个训练样本(x1，y1)，(x2，y2)，…，(xn，yn)，迭代次数T，其中yi∈{0，1}，1表示正常评论，0表示垃圾评论；每个样本有k个特征，表示为{f1(xi)，f2(xi)，…，fk(xi)}；

初始化训练数据的权值系数，

循环T次：

样本权值归一化，

对于每个特征j训练出一个分类器hj，使得分类器的错误率εj最小；其中：

找出一个具有最小错误率εi的分类器ht并计算权重

更新样本权重，

得到的强分类器h(x)是T个弱分类器的加权平均：

所述文本nlp分析包括：

(1)合并文本，将每个问题文本与过滤后的评论文本合并，得到待分析文本ti，遍历所有问题；

(2)提取关键词，利用Bosonnlp的Node SDK，将文本ti上传到分析服务器，获取关键词分析后的每个词语的权重，取前m个关键词构成一组向量si＝(k1，k2，…，km)；

(3)文本分类提取，利用Acnlp的python SDK，获取文本t所属的一个列表格式多分类标签tagi＝(w1，w2，w3)；

所述处理向量包括：

(1)时间衰减，引入时间衰减函数，服从韦伯衰减：

α = e - ( t / L ) k × log 2 ; ]]>

其中，t为时间，L为衰减周期，k为形状参数；α为问题随时间变化的权重，即关键词权重为α×si；

(2)计算关键字相似度，基于Hownet计算关键词的相似度；

根据公式Sim(W1，W2)＝maxi＝1，2，…，n，j＝1，2，…，mSim(S1i，S2j)，其中关键词W1，W2分别有n和m个不同概念；

概念相似度：其中，βi(1≤i≤4)是可调节的参数，且有：β1+β2+β3+β4＝1，β1≥β2≥β3≥β4；

其中，义原相似度可由公式直接计算或改进得出；

(3)更新关键词权重，设定边界值k，当相似度大于k时，合并关键词，并更新权重：

vnew＝v1+v2；

由提问内容得到一组关键词向量Stemp＝{(k1，v2)，(k1，v2)，…}和一组分类向量Ttemp＝{(k1，v2)，(k1，v2)，…}，表示用户短期兴趣；由用户关注内容得到一组关键词向量Slong＝{(k1，v2)，(k1，v2)，…}和一组分类向量Tlong＝{(k1，v2)，(k1，v2)，…}，表示用户长期兴趣。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西安电子科技大学，未经西安电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201711153094.6/1.html，转载请声明来源钻瓜专利网。

上一篇：一种双组分培养基
下一篇：一种盐碱地作物根际土壤氧气自动更新系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于NLP社交问答网络用户兴趣能力模型构建系统及方法在审

专利文献下载