[发明专利]一种通过文本主题挖掘推测用户大五人格的方法及系统在审
申请号: | 201611076366.2 | 申请日: | 2016-11-30 |
公开(公告)号: | CN106649267A | 公开(公告)日: | 2017-05-10 |
发明(设计)人: | 胡铮;刘奕杉;张春红;唐晓晟 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京路浩知识产权代理有限公司11002 | 代理人: | 汤财宝 |
地址: | 100876*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 通过 文本 主题 挖掘 推测 用户 人格 方法 系统 | ||
1.一种通过文本主题挖掘推测用户大五人格的方法,其特征在于,包括:
S1,采集文本数据及大五人格评分,进行预处理;
S2,基于人格-主题模型,根据预处理后的文本获得人格-主题分布矩阵;
S3,根据人格-主题分布矩阵分析人格与主题关系获得不同主题关联的大五人格得分。
2.如权利要求1所述的方法,其特征在于,S1进一步包括:
S1.1,将不同用户的文本按不同的人格分类,获得与不同人格对应的汇总文本;
S1.2,对每个汇总文本进行过滤噪声、分词处理及去停止词。
3.如权利要求1所述的方法,其特征在于,S2进一步包括:
S2.1,建立人格-主题模型,并设置人格-主题模型中的参数;
S2.2,利用吉布斯算法,按人格-主题模型推导预处理后的文本,获得人格-主题分布矩阵。
4.如权利要求1所述的方法,其特征在于,S3进一步包括:
S3.1,对人格-主题分布矩阵进行纵向归一化处理,获得主题-人格分布矩阵;
S3.2,计算主题区分度;
S3.3,根据每个主题的人格概率分布及区分度,计算每个主题的大五人格得分。
5.如权利要求3所述的方法,其特征在于,S2.1进一步包括:
S2.1.1,根据先验参数,对每一种人格,采样主题分布;对每一个主题,采样主题词分布,并采样背景词概率分布和背景词-主题词判断的概率分布;
S2.1.2,对每一种人格,依据对应的主题分布,采样每条文本中主题;
S2.1.3,对每一条文本,依次对每个单词进行采样;
S2.1.4,基于上述文本生成过程,建立人格-主题模型;
S2.1.5,设置先验参数及主题数目。
6.如权利要求3所述的方法,其特征在于,S2.2进一步包括:
S2.2.1,随机初始化每条文本的主题编号,随机初始化每个单词属于背景词或主题词;
S2.2.2,利用吉布斯算法对主题和背景词-主题词判断进行循环采样,经过预定次数的迭代,概率分布趋近于稳定,获得人格-主题分布矩阵。
7.如权利要求4所述的方法,其特征在于,S3.2进一步包括,所述区分度的计算公式如下:
其中,对每一个主题的人格概率值进行排序,XH表示排序后较大的一半的人格概率值,XL表示排序后较小的一半的人格概率值,W表示概率值的上界。
8.如权利要求5所述的方法,其特征在于,S2.1.3进一步包括:对每一个的单词,采样该单词是背景词还是主题词,如果是背景词,依据背景词概率分布,采样背景词;如果是主题词,依据该条文本的主题,选取对应的主题词分布采样主题词。
9.一种通过文本主题挖掘推测用户大五人格的系统,其特征在于,包括文本采集模块、模型处理模块和人格分析模块,
所述文本采集模块,用于采集文本数据及大五人格评分,进行预处理;
所述模型处理模块,用于基于人格-主题模型,根据预处理后的文本获得人格-主题分布矩阵;
所述人格分析模块,用于根据人格-主题分布矩阵分析人格与主题关系获得不同主题关联的大五人格得分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611076366.2/1.html,转载请声明来源钻瓜专利网。