[发明专利]一种基于用户聊天记录的标签挖掘方法及设备有效
申请号: | 202011556453.4 | 申请日: | 2020-12-25 |
公开(公告)号: | CN112287076B | 公开(公告)日: | 2021-04-02 |
发明(设计)人: | 王清琛;张蹲;孟凡华;茆传羽;杜振东;程云;张洪磊 | 申请(专利权)人: | 南京云问网络技术有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332;G06F16/35;G06F40/216;G06F40/289 |
代理公司: | 南京瑞华腾知识产权代理事务所(普通合伙) 32368 | 代理人: | 钱丽 |
地址: | 211106 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 用户 聊天记录 标签 挖掘 方法 设备 | ||
1.一种基于用户聊天记录的标签挖掘方法,其特征在于,包括:
步骤1:对通过语音助手与用户闲聊生成的聊天数据进行预处理;
步骤2:基于标签抽取模型和统计方法从预处理后的聊天数据中抽取用户标签;
所述标签抽取模型通过以下步骤生成:
步骤201:选取一批聊天数据,标注聊天记录中每句话的用户标签;
步骤202:根据标注数据训练神经网络模型;
步骤203:对于步骤202中训练好的模型计算用户标签抽取准确率,计算公式如下:
当标签抽取准确率大于设定阈值时,即模型性能符合要求,可以投入使用;
步骤3:基于关系发现模型挖掘相似度在设定阈值以上的所有标签;
具体包括以下步骤:
步骤301 :根据标签向量模型获取用户标签的向量;
步骤302 :获取用户标签中的每个字,用于后续相似度计算;
步骤303:根据用户标签向量,计算任意两个用户标签之间的余弦夹角;根据用户标签中的字信息,计算两个用户标签的集合相似度值;
步骤304 :对于两个用户标签的余弦夹角和集合相似度值取平均作为最终相似度值;
所述步骤202具体包括:
通过以下公式将标注聊天数据中的每一句话转化为矩阵形式:
(1)
其中,是闲聊语句中的第i个字,为向量维度,为1行n列的实数矩阵,通过函数将闲聊语句中的字映射成字向量,闲聊语句中每个字都会被映射为字向量,神经网络中会提前预存所有字向量,字向量可以从公开数据中获取;
(2)
其中,m是句子中字的个数,为m行n列的实数矩阵,通过公式2可将所有字向量拼接起来;
(3)
其中,W1,b1是神经网络中的参数,为n行n列的实数矩阵,为1行n列的实数矩阵;
(4)
其中,是神经网络中的参数,为n行4列的实数矩阵,为1行2列的实数矩阵,是归一化函数,用于把向量中的值映射为0-1之间的小数,公式如下:
(5)
其中,的意思是向量s中的第i个值,是s中所有值的求和,通过公式4获得的是一个4维向量,其数值分别代表了每个字属于各个用户标签的概率。
2.根据权利要求1所述的基于用户聊天记录的标签挖掘方法,其特征在于,所述每句话的用户标签包括在该句话中的每个字以及每个字的类别,所述每个字的类别的标注规则如下:
如该字是用户标签的开始,则这个字的类别记为B;
如该字是用户标签的结束,则这个字的类别记为E;
如该字在用户标签的中间,则这个字的类别记为I;
如该字不在用户标签中,则这个字的类别记为O。
3.根据权利要求1所述的基于用户聊天记录的标签挖掘方法,其特征在于,所述从预处理后的聊天数据中抽取用户标签包括:
步骤211:基于标签抽取模型抽取用户标签;
步骤212:使用公开的分词工具对聊天记录进行分词,然后选取出现次数在设定阈值以上的名词作为用户标签;
步骤213 :将步骤211和步骤212抽取的用户标签合并,然后计算每个用户标签的得分,最后根据得分排序,选取得分高的若干作为用户标签,计算每个用户标签的得分的方式如下:
其中,是该标签在聊天记录中出现的次数,是聊天记录总字数,是该标签在通用语料库中出现的次数,是通用语料库总字数。
4.根据权利要求1所述的基于用户聊天记录的标签挖掘方法,其特征在于,所述预处理包括依次进行的统一编码、简繁转换和移除无效字符。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京云问网络技术有限公司,未经南京云问网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011556453.4/1.html,转载请声明来源钻瓜专利网。