[发明专利]弹幕类别识别方法、装置、设备及存储介质在审
申请号: | 201811310439.9 | 申请日: | 2018-11-06 |
公开(公告)号: | CN109766435A | 公开(公告)日: | 2019-05-17 |
发明(设计)人: | 王非池 | 申请(专利权)人: | 武汉斗鱼网络科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/27;H04N21/488 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 430070 湖北省武汉市武汉东湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本特征 逻辑回归模型 存储介质 类别识别 行为特征 用户行为特征 大小关系 情绪信息 文本信息 有效地 统计 子弹 输出 融合 | ||
1.一种弹幕类别识别方法,其特征在于,包括:
获取待处理弹幕的文本特征的特征值;
获取用户行为特征的统计值;
将所述文本特征的特征值和所述行为特征的统计值输入已训练的逻辑回归模型,并根据该已训练的逻辑回归模型的输出值与阈值的大小关系确定所述待处理弹幕的弹幕类别,其中,所述弹幕类别包括正常弹幕和喷子弹幕。
2.根据权利要求1所述的方法,其特征在于,所述待处理弹幕的文本特征的特征值,包括:
所述待处理弹幕的预设标点符号特征的特征值、预设表情特征的特征值和预设负面词语特征的特征值,以及所述待处理弹幕的有效分词的TF-IDF值。
3.根据权利要求2所述的方法,其特征在于,所述预设标点符号特征的特征值为:若待处理弹幕存在预设标点符号特征,则该预设标点符号特征的特征值为1,否则为0;
所述预设表情特征的特征值为:若待处理弹幕存在预设表情特征,则该预设表情特征的特征值为1,否则为0;
所述预设负面词语特征的特征值为:若待处理弹幕存在预设负面词语特征,则该预设词语特征的特征值为1,否则为0。
4.根据权利要求2所述的方法,其特征在于,求取所述待处理弹幕的有效分词的TF-IDF值,包括:
获取每个有效分词在所述待处理弹幕中的词频以作为TF值,具体为:其中ni,j表示有效分词i在待处理弹幕j中出现的次数,∑knk,j表示待处理弹幕j的有效分词数量;
获取每个有效分词的逆文本频率指数,即IDF值,具体为:其中,|D|表示样本集的弹幕总条数,|{j:ti∈dj}|表示样本集中包含有效分词i的弹幕条数;
求取所述TF值与所述IDF值的乘积以作为TF-IDF值,具体为:TF-IDFi,j==tfi,j*idfi。
5.根据权利要求2所述的方法,其特征在于,所述文本特征包括预设标点符号特征、预设表情特征和预设负面词语特征,相应的,提取待处理弹幕的文本特征,包括:
基于正则化匹配法提取所述待处理弹幕的预设标点符号特征、预设表情特征和预设负面词语特征。
6.根据权利要求1所述的方法,其特征在于,所述行为特征的统计值包括:
预设统计时间内,与当前弹幕相同的弹幕的出现次数、与当前弹幕具有相同负面词语的弹幕条数,以及与当前弹幕具有相同负面表情的弹幕条数。
7.根据权利要求6所述的方法,其特征在于,所述行为特征的统计值还包括:
预设统计时间内,发送当前弹幕的IP所发送的弹幕条数,以及发送当前弹幕的设备所发送的弹幕条数。
8.一种弹幕类别识别方法,其特征在于,包括:
特征值获取模块,用于获取待处理弹幕的文本特征的特征值;
统计值获取模块,用于获取用户行为特征的统计值;
识别模块,用于将所述文本特征的特征值和所述行为特征的统计值输入已训练的逻辑回归模型,并根据该已训练的逻辑回归模型的输出值与阈值的大小关系确定所述待处理弹幕的弹幕类别,其中,所述弹幕类别包括正常弹幕和喷子弹幕。
9.一种设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的弹幕类别识别方法。
10.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一所述的弹幕类别识别方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉斗鱼网络科技有限公司,未经武汉斗鱼网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811310439.9/1.html,转载请声明来源钻瓜专利网。