[发明专利]用户特征的识别方法、装置、设备以及存储介质有效
| 申请号: | 202011281605.4 | 申请日: | 2020-11-16 |
| 公开(公告)号: | CN112364663B | 公开(公告)日: | 2023-05-26 |
| 发明(设计)人: | 杨青 | 申请(专利权)人: | 度小满科技(北京)有限公司 |
| 主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/284;G06F16/23 |
| 代理公司: | 北京知帆远景知识产权代理有限公司 11890 | 代理人: | 刘岩磊 |
| 地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用户 特征 识别 方法 装置 设备 以及 存储 介质 | ||
1.一种用户特征的识别方法,其特征在于,包括:
获取用户的多个第一文本信息,所述第一文本信息包括第一文本内容和与所述第一文本内容对应的时间戳;
根据所述多个第一文本信息,确定所述用户的至少一个特征;
输出所述用户的至少一个特征;
所述根据所述多个第一文本信息,确定所述用户的至少一个特征,包括:
针对每个第一文本信息,将所述第一文本信息映射为文本向量序列,所述文本向量序列用于在向量空间中表征所述第一文本内容和与所述第一文本内容对应的时间信息;
根据所述多个第一文本信息对应的多个文本向量序列,确定所述用户的至少一个特征;
所述根据所述多个第一文本信息,确定所述用户的至少一个特征,包括:
将所述多个第一文本信息输入预先训练的特征模型,得到所述用户的至少一个特征;
在所述将所述多个第一文本信息输入特征模型,得到所述用户的至少一个特征之前,所述方法还包括:
获取第一训练数据集,所述第一训练数据集包括多个第一训练数据,所述第一训练数据包括多个第二文本信息和至少一个特征标签,所述第二文本信息包括第二文本内容和与所述第二文本内容对应的时间戳;
通过所述第一训练数据集训练所述特征模型;
在所述通过所述第一训练数据集训练所述特征模型之前,所述方法还包括:
获取第二训练数据集,所述第二训练数据集包括多个第二训练数据,所述第二训练数据包括第三文本内容;
通过所述第二训练数据集训练文本模型,所述文本模型包括语义生成模块和文本预测模块,所述文本预测模块中的全连接层接收所述语义生成模块输出的第一语义向量和多个第二语义向量,所述第一语义向量包含所述多个第二语义向量对应的语义信息;
在所述文本模型的损失函数收敛至预设值后,生成所述特征模型,所述特征模型包括所述语义生成模块和特征预测模块,所述特征预测模块中的全连接层接收所述语义生成模块输出的第一语义向量;
所述通过所述第二训练数据集训练文本模型,包括:
针对所述第二训练数据集中的每个第二训练数据,通过文本模型,对所述第三文本内容中的至少一个元素进行掩码处理,得到掩码处理后的第二训练数据,所述掩码处理后的第二训练数据包括掩码处理后的第三文本内容和内容标签,所述内容标签为被掩码替换的至少一个元素;
通过多个掩码处理后的第二训练数据训练所述文本模型。
2.根据权利要求1所述的方法,其特征在于,所述针对每个第一文本信息,将所述第一文本信息映射为文本向量序列,包括:
将所述第一文本信息的第一文本内容映射为内容向量序列,所述内容向量序列用于在向量空间中表征所述第一文本内容;
将所述第一文本内容对应的时间戳,按照预设的时间维度,映射为时间向量序列,所述时间维度包括年、月、日、星期、小时或分钟中的至少一种,所述时间向量序列用于在向量空间中表征所述第一文本内容在所述时间维度上的时间信息;
将所述内容向量序列和所述时间向量序列进行融合,得到所述文本向量序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于度小满科技(北京)有限公司,未经度小满科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011281605.4/1.html,转载请声明来源钻瓜专利网。





