[发明专利]一种联合情感和话语角色的在线论坛主题建模方法在审
| 申请号: | 202210222944.8 | 申请日: | 2022-03-09 |
| 公开(公告)号: | CN114996390A | 公开(公告)日: | 2022-09-02 |
| 发明(设计)人: | 张思;陈娟;徐佳丽;刘清堂 | 申请(专利权)人: | 华中师范大学 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/30;G06Q50/00;G06Q50/20 |
| 代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 罗飞 |
| 地址: | 430079 湖*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 联合 情感 话语 角色 在线 论坛 主题 建模 方法 | ||
本发明公开了一种联合情感和话语角色的在线论坛主题建模方法,首先,针对帖子的需要和相关分类方法确定帖子的各情感向量占比;其次,使用相关话语角色分类表分别确定发帖和回帖的各类角色向量的占比;第三,联合情感向量和回帖的角色向量,获取情感‑回帖角色的二维矩阵,并针对不同情感、不同话语角色,获取对应的主题分布概率;最后,情感向量联合主题向量,确定不同主题、不同情感下所选词的概率占比。综上,可以得到帖子的情感、话语角色以及主题占比。本模型将情感和话语角色两个变量联合纳入主题模型中,进而获取个人的兴趣主题和话语角色对应的主题信息,探究可得个人在在线论坛中关注的信息,以及不同话语角色关注的主题有何不同。
技术领域
本发明涉及文本数据挖掘技术领域,尤其涉及一种联合情感和话语角色的在线论坛主题建模方法。
背景技术
科技的发展带动了社交媒体的进步,也带来了从简单文本到音视频和语音的爆炸式增长的信息量。但对于在线教育教学论坛而言,文本数据既获取简单、处理方便,又能从中挖掘到发帖人的真实想法和个人兴趣,更好地了解发帖者更倾向于关注哪方面的内容,以及如何与他人进行交流互动。
在在线教育领域,研究者通过分析论坛中的帖子文本深层挖掘潜藏其中的语义信息,部分学者试图通过构建模型、改进算法对文本数据进行多层变量联合式的分析,提高对未知数据的推断和评估能力。有学者将情感加入主题模型,探究论坛中学习者的兴趣所在,但这类分析往往将情感当作独立变量,不考虑实际论坛中他人和上下文情境对发帖人的影响,因此传统的孤立的情感主题分析在真实场景中并不适用,无法挖掘出在线论坛中的深层语义。
发明内容
本发明提出一种联合情感和话语角色的在线论坛主题建模方法,用于解决或者至少部分解决现有技术的方法无法获取在线论坛中深层语义信息的技术问题。
为了解决上述技术问题,本发明提供了一种联合情感和话语角色的在线论坛主题建模方法,包括:
S1:根据帖子的需要,结合情感分类规则和标准,确定帖子中各类情感占比;
S2:根据发帖人的需要,结合预设的发帖话语角色分类表,确定发帖的各类话语角色占比;
S3:根据回帖人的需要,结合预设的回帖话语角色分类表,确定回帖的各类话语角色占比;
S4:根据帖子中各类情感占比和回帖的各类话语角色占比,获取二者联合后的概率矩阵,综合主题向量,确定在不同情感、不同话语角色下的主题分布情况,其中主题向量为帖子中各类主题出现的频率;
S5:根据S4中的在不同情感、不同话语角色下的主题分布情况、帖子的情感以及每个主题中分布的词向量,获取在特定情感、特定回帖话语角色下特定主题中的词分布情况;
S6:根据各类情感占比、发帖的各类话语角色占比、回帖的各类话语角色占比、在不同情感、不同话语角色下的主题分布情况以及在特定情感、特定回帖话语角色下特定主题中的词分布情况,构建联合情感和话语角色的主题模型。
在一种实施方式中,步骤S1包括:
S1.1:构建情感词典,得到情感分类规则和标准;
S1.2:根据情感分类规则和标准计算各类情感占比,计算公式为:
其中,表示在情感种类词向量中选择特定情感的概率,即帖子中各类情感占比;表示迪利克雷分布,表示在这篇文档中选择这类情感的概率,表示情感向量,表示情感向量的稀疏度;π表示文档中的情感概率分布;m表示文档数,M表示全部文档数;j表示情感种类,E表示全部情感种类数目;表示第m篇文档中第j种情感所有的词数。
在一种实施方式中,步骤S2包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中师范大学,未经华中师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210222944.8/2.html,转载请声明来源钻瓜专利网。





