[发明专利]一种基于多层级文本表示及模型融合的用户画像生成方法在审
申请号: | 202110569271.9 | 申请日: | 2021-05-25 |
公开(公告)号: | CN113486143A | 公开(公告)日: | 2021-10-08 |
发明(设计)人: | 杜永萍;苗宇;金醒男 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06K9/62;G06N3/04 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多层 文本 表示 模型 融合 用户 画像 生成 方法 | ||
本发明公开了一种基于多层级文本表示及模型融合的用户画像生成方法,利用真实用户的互联网搜索文本,通过文本预处理,分别从不同层级提取文本特征,经不同的神经网络分类,最后将各神经网络预测出的分类结果经二级分类器进行二次分类,以此实现用户特征画像。将真实用户的互联网搜索数据进行分词,分别生成单词级的向量表示,子词级向量表示和字符级向量表示,分别作为输入传入不同的深度神经网络进行分类,每个神经网络分类器的训练阶段皆使用k折交叉验证的方法,最后将每个一级分类模型得到的训练数据和测试数据的预测结果各自进行拼接,作为二级分类器的训练数据和测试数据进行再次分类,实现对互联网用户的准确画像。
技术领域
本发明涉及一种基于多层级文本表示及模型融合的用户画像生成方法,属于自然语言处理应用领域。
背景技术
交互设计之父Alan Cooper最早提出了用户画像Personas的概念,指出Personas是真实用户的虚拟代表,是建立在一系列真实数据之上的目标用户模型。用户画像是用户标签化,即企业通过收集与分析消费者的社会习惯、生活习惯、消费行为等信息的数据后,抽象出一个用户的全貌,以能够帮助企业快速找到精准用户群体。本发明中使用真实用户的互联网元数据预测用户的属性,服务于企业进一步收集更为广泛的用户需求信息。
利用真实用户的互联网元数据来预测用户属性,本质上是自然语言处理的经典任务文本分类的应用。文本分类的本质是给文本指定某一预定义标签的过程,其积累了很多实现方法。
卷积神经网络本质上是一个多层感知机,其在减少权值的数量,降低模型复杂度和过拟合风险等方面取得成功。卷积神经网络不仅在处理图像问题上具备优势,也可将其优异的特征提取能力应用于处理一维文本序列问题。
文本类型数据是非结构化的数据,将文本类型数据结构化是令计算机进行文本处理的第一步。传统的one-hot表示法存在维度大,无法表达词的语义信息等缺点。相较于one-hot表示,词的分布式表示即通过训练,将每个词映射到一个较短的词向量上,且单词之间存在“距离”的概念,能够包含更多的语义语法信息。
模型融合方法是融合多个分类器的分类结果从而得到新的较准确的预测,使之取代各个一级分类器的分类结果。融合方法可分为两种,固定的融合方法和可训练的融合方法,前者的优势在于它们不需要额外的训练语料进行训练,简单易实现;可训练的融合方法的优势在于在足够的训练语料下,可以获得更好的分类效果。
目前将深度神经网络分类模型和模型融合算法应用到用户标签预测的场景尚不多见,且各文本分类模型在文本特征提取方面各自具备优势和短板,不能充分考虑一维文本特征的层级表示。
需要解决的问题及达到的有益效果
随着移动互联网时代的蓬勃发展,用户画像技术在企业把握目标用户特征,从而进行精准营销和广告投放等方面的功能也变得日益重要。如何利用当代先进的数据挖掘技术和人工智能算法对目标客户进行特征提取和标签化,便于企业发掘目标客户,了解目标客户,进而增大客户粘性,减少流失率,是企业市场营销部门、产品部门以及算法部门关注的方向。
本发明从企业刻画用户画像的数据建模和标签预测的目的入手,研究如何利用深度学习模型和模型融合算法对用户特征进行建模并预测。
根据互联网真实用户元数据进行用户特征分类,使用不同层级的文本表示,同时考虑文本的语义特征和语法结构,利用不同的深度神经网络进行分类预测,最后考虑到各层级文本表示的分类器存在各自的优缺点,在各一级分类器训练结果的基础上进行二级分类,以提升分类和预测精度,为企业下一步精准营销的各类任务提供依据和支持。
发明内容
为了弥补现有方法的不足,本发明在创建用户元数据的词表示的过程中,分别生成基于单词级,子词级和字符级的向量表示,各自使用深度神经网络进行标签分类预测。考虑到基于不同文本级别的向量表示各自的优缺点,在各个一级分类模型训练完成后,将预测结果使用模型融合方式进行二次分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110569271.9/2.html,转载请声明来源钻瓜专利网。