[发明专利]基于NLP社交问答网络用户兴趣能力模型构建系统及方法在审

专利信息
申请号: 201711153094.6 申请日: 2017-11-20
公开(公告)号: CN108038097A 公开(公告)日: 2018-05-15
发明(设计)人: 裴庆祺;何婷 申请(专利权)人: 西安电子科技大学
主分类号: G06F17/27 分类号: G06F17/27;G06F17/28;G06F17/30
代理公司: 西安长和专利代理有限公司 61227 代理人: 黄伟洪;李霞
地址: 710071 陕西省*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 nlp 社交 问答 网络 用户 兴趣 能力 模型 构建 系统 方法
【权利要求书】:

1.一种基于NLP社交问答网络用户兴趣能力模型构建方法,其特征在于,所述基于NLP社交问答网络用户兴趣能力模型构建方法根据社交问答网络中用户的行为数据,建立分析用户兴趣和能力的模型;模型通过分析问题列表、回答列表等多种相关数据,结合中文自然语言处理,以一组高维向量模型的形式表示用户兴趣和能力。

2.如权利要求1所述的基于NLP社交问答网络用户兴趣能力模型构建方法,其特征在于,所述基于NLP社交问答网络用户兴趣能力模型构建方法包括:

步骤一,数据处理;

(1)数据获取,使用github上开源的zhihu-api获取目标用户的基本信息、关注关系、提问、回答、关注问题;

(2)数据预处理,以问题为单位获取每个问题的文本、评论;以用户回答为单位获取赞同数、问题文本;

步骤二,兴趣分析

(1)垃圾评论过滤;

(2)文本nlp分析;

(3)处理向量;

步骤三,能力分析

(1)文本nlp分析,将回答文本与原问题文本合并;合并文本,将每个问题文本与过滤后的评论文本合并,得到待分析文本ti,遍历所有问题;提取关键词,利用Bosonnlp的NodeSDK,将文本ti上传到分析服务器,获取关键词分析后的每个词语的权重,取前m个关键词构成一组向量si=(k1,k2,…,km);文本分类提取,利用Acnlp的python SDK,获取文本t所属的一个列表格式多分类标签tagi=(w1,w2,w3);

(2)加权处理,回答赞同数服从高斯分布,计算更新权重。

3.如权利要求2所述的基于NLP社交问答网络用户兴趣能力模型构建方法,其特征在于,所述垃圾评论过滤包括:

(1)数据预处理,采用分词工具对问题文本和评论进行分词,并剔除全是数字、字母或者标点符号的垃圾评论;

(2)特征提取,根据用户问答内容的特点,引入4个特征来表示评论并提取特征值:超连接数、广告词数、名词度、评论赞同数;

(3)评论过滤,采用adaboost算法对评论过滤:对给定的n个训练样本(x1,y1),(x2,y2),…,(xn,yn),迭代次数T,其中yi∈{0,1},1表示正常评论,0表示垃圾评论;每个样本有k个特征,表示为{f1(xi),f2(xi),…,fk(xi)};

初始化训练数据的权值系数,

循环T次:

样本权值归一化,

对于每个特征j训练出一个分类器hj,使得分类器的错误率εj最小;其中:

找出一个具有最小错误率εi的分类器ht并计算权重

更新样本权重,

得到的强分类器h(x)是T个弱分类器的加权平均:

所述文本nlp分析包括:

(1)合并文本,将每个问题文本与过滤后的评论文本合并,得到待分析文本ti,遍历所有问题;

(2)提取关键词,利用Bosonnlp的Node SDK,将文本ti上传到分析服务器,获取关键词分析后的每个词语的权重,取前m个关键词构成一组向量si=(k1,k2,…,km);

(3)文本分类提取,利用Acnlp的python SDK,获取文本t所属的一个列表格式多分类标签tagi=(w1,w2,w3);

所述处理向量包括:

(1)时间衰减,引入时间衰减函数,服从韦伯衰减:

α = e - ( t / L ) k × log 2 ; ]]>

其中,t为时间,L为衰减周期,k为形状参数;α为问题随时间变化的权重,即关键词权重为α×si

(2)计算关键字相似度,基于Hownet计算关键词的相似度;

根据公式Sim(W1,W2)=maxi=1,2,…,n,j=1,2,…,mSim(S1i,S2j),其中关键词W1,W2分别有n和m个不同概念;

概念相似度:其中,βi(1≤i≤4)是可调节的参数,且有:β1234=1,β1≥β2≥β3≥β4

其中,义原相似度可由公式直接计算或改进得出;

(3)更新关键词权重,设定边界值k,当相似度大于k时,合并关键词,并更新权重:

vnew=v1+v2

由提问内容得到一组关键词向量Stemp={(k1,v2),(k1,v2),…}和一组分类向量Ttemp={(k1,v2),(k1,v2),…},表示用户短期兴趣;由用户关注内容得到一组关键词向量Slong={(k1,v2),(k1,v2),…}和一组分类向量Tlong={(k1,v2),(k1,v2),…},表示用户长期兴趣。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711153094.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top