[发明专利]一种基于用户聊天记录的标签挖掘方法及设备有效
申请号: | 202011556453.4 | 申请日: | 2020-12-25 |
公开(公告)号: | CN112287076B | 公开(公告)日: | 2021-04-02 |
发明(设计)人: | 王清琛;张蹲;孟凡华;茆传羽;杜振东;程云;张洪磊 | 申请(专利权)人: | 南京云问网络技术有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332;G06F16/35;G06F40/216;G06F40/289 |
代理公司: | 南京瑞华腾知识产权代理事务所(普通合伙) 32368 | 代理人: | 钱丽 |
地址: | 211106 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 用户 聊天记录 标签 挖掘 方法 设备 | ||
本发明公开了一种基于用户聊天记录的标签挖掘方法及设备。该方法包括对通过语音助手与用户闲聊生成的聊天数据进行预处理,基于标签抽取模型和统计方法从预处理后的聊天数据中抽取用户标签,基于关系发现模型挖掘相似度在设定阈值以上的所有标签。本发明借助神经网络的机器学习方法,使得模型可根据语义选择合适的标签,标签效果好;当系统运行一段时间后会积累更多的用户聊天数据,可以再次进行标注训练来达到更好的效果,可支持进一步优化;本发明在经过前期人工标注后,后期可以自动化抽取标签,节省了大量的人力,提升效率。
技术领域
本发明涉及语音助手技术领域,具体涉及一种基于用户聊天记录的标签挖掘方法及设备。
背景技术
在智能语音助手场景中,为了更好的为用户提供服务,通常需要对用户构建画像、打标签,然后基于这些标签对用户做推荐服务。
个性化推荐在与用户交互的整个过程中。一方面可以针对用户的岗位特征等推荐一些知识或业务信息,比如与之相关的新政策等等,同时也可以针对用户的个人喜好进行相关话题的讨论,谈论一些喜欢吃什么,爱看什么电影等等。成为一个人性化十足的语音助手,渗透到用户的工作生活中的各个角落,提高用户粘性。
当前情况下,构建用户画像需要用户手工填写信息。或者通过系统平台获取一定的订单行为等信息。
但是在实际使用情况中,大量的信息采集对于用户来说是一种负担,严重降低了用户体验,此外,用户订单、操作等信息等出于隐私保护的原因不易获取,或者因数据的稀疏性做不到良好的推荐服务。
发明内容
本发明的目的是针对现有技术存在的不足,提供一种基于用户聊天记录的标签挖掘方法及设备。
为实现上述目的,在第一方面,本发明提供了一种基于用户聊天记录的标签挖掘方法,包括:
步骤1:对通过语音助手与用户闲聊生成的聊天数据进行预处理;
步骤2:基于标签抽取模型和统计方法从预处理后的聊天数据中抽取用户标签;
所述标签抽取模型通过以下步骤生成:
步骤201:选取一批聊天数据,标注聊天记录中每句话的用户标签;
步骤202:根据标注数据训练神经网络模型;
步骤203:对于步骤202中训练好的模型计算用户标签抽取准确率,计算公式如下:
当标签抽取准确率大于设定阈值时,即获得标签抽取模型;
步骤3:基于关系发现模型挖掘相似度在设定阈值以上的所有标签;
具体包括以下步骤:
步骤301 :根据标签向量模型获取用户标签的向量;
步骤302 :获取用户标签中的每个字,用于后续相似度计算;
步骤303:根据用户标签向量,计算任意两个用户标签之间的余弦夹角;根据用户标签中的字信息,计算两个用户标签的集合相似度值;
步骤304 :对于两个用户标签的余弦夹角和集合相似度值取平均作为最终相似度值。
进一步的,所述每句话的用户标签包括在该句话中的每个字以及每个字的类别,所述每个字的类别的标注规则如下:
如该字是用户标签的开始,则这个字的类别记为B;
如该字是用户标签的结束,则这个字的类别记为E;
如该字在用户标签的中间,则这个字的类别记为I;
如该字不在用户标签中,则这个字的类别记为O。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京云问网络技术有限公司,未经南京云问网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011556453.4/2.html,转载请声明来源钻瓜专利网。