[发明专利]基于NLP社交问答网络用户兴趣能力模型构建系统及方法在审
申请号: | 201711153094.6 | 申请日: | 2017-11-20 |
公开(公告)号: | CN108038097A | 公开(公告)日: | 2018-05-15 |
发明(设计)人: | 裴庆祺;何婷 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/28;G06F17/30 |
代理公司: | 西安长和专利代理有限公司 61227 | 代理人: | 黄伟洪;李霞 |
地址: | 710071 陕西省*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 nlp 社交 问答 网络 用户 兴趣 能力 模型 构建 系统 方法 | ||
1.一种基于NLP社交问答网络用户兴趣能力模型构建方法,其特征在于,所述基于NLP社交问答网络用户兴趣能力模型构建方法根据社交问答网络中用户的行为数据,建立分析用户兴趣和能力的模型;模型通过分析问题列表、回答列表等多种相关数据,结合中文自然语言处理,以一组高维向量模型的形式表示用户兴趣和能力。
2.如权利要求1所述的基于NLP社交问答网络用户兴趣能力模型构建方法,其特征在于,所述基于NLP社交问答网络用户兴趣能力模型构建方法包括:
步骤一,数据处理;
(1)数据获取,使用github上开源的zhihu-api获取目标用户的基本信息、关注关系、提问、回答、关注问题;
(2)数据预处理,以问题为单位获取每个问题的文本、评论;以用户回答为单位获取赞同数、问题文本;
步骤二,兴趣分析
(1)垃圾评论过滤;
(2)文本nlp分析;
(3)处理向量;
步骤三,能力分析
(1)文本nlp分析,将回答文本与原问题文本合并;合并文本,将每个问题文本与过滤后的评论文本合并,得到待分析文本t
(2)加权处理,回答赞同数服从高斯分布,计算更新权重。
3.如权利要求2所述的基于NLP社交问答网络用户兴趣能力模型构建方法,其特征在于,所述垃圾评论过滤包括:
(1)数据预处理,采用分词工具对问题文本和评论进行分词,并剔除全是数字、字母或者标点符号的垃圾评论;
(2)特征提取,根据用户问答内容的特点,引入4个特征来表示评论并提取特征值:超连接数、广告词数、名词度、评论赞同数;
(3)评论过滤,采用adaboost算法对评论过滤:对给定的n个训练样本(x
初始化训练数据的权值系数,
循环T次:
样本权值归一化,
对于每个特征j训练出一个分类器h
找出一个具有最小错误率ε
更新样本权重,
得到的强分类器h(x)是T个弱分类器的加权平均:
所述文本nlp分析包括:
(1)合并文本,将每个问题文本与过滤后的评论文本合并,得到待分析文本t
(2)提取关键词,利用Bosonnlp的Node SDK,将文本t
(3)文本分类提取,利用Acnlp的python SDK,获取文本t所属的一个列表格式多分类标签tag
所述处理向量包括:
(1)时间衰减,引入时间衰减函数,服从韦伯衰减:
其中,t为时间,L为衰减周期,k为形状参数;α为问题随时间变化的权重,即关键词权重为α×s
(2)计算关键字相似度,基于Hownet计算关键词的相似度;
根据公式Sim(W
概念相似度:
其中,义原相似度可由公式
(3)更新关键词权重,设定边界值k,当相似度大于k时,合并关键词,并更新权重:
v
由提问内容得到一组关键词向量S
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711153094.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种双组分培养基
- 下一篇:一种盐碱地作物根际土壤氧气自动更新系统