[发明专利]一种旅游门票产品画像生成方法有效
申请号: | 201911175273.9 | 申请日: | 2019-11-26 |
公开(公告)号: | CN110910175B | 公开(公告)日: | 2023-07-28 |
发明(设计)人: | 付仁杰;黄俊;洪清华;刘源远 | 申请(专利权)人: | 上海景域文化传播股份有限公司 |
主分类号: | G06Q30/0201 | 分类号: | G06Q30/0201;G06Q30/0202;G06Q50/14;G06F18/2431;G06F18/214;G06F40/289;G06F40/216 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 叶敏华 |
地址: | 201824 上海市嘉*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 旅游 门票 产品 画像 生成 方法 | ||
1.一种旅游门票产品画像生成方法,其特征在于,包括以下步骤:
S1、获取旅游门票的样本产品信息,提取旅游门票的样本产品特征;
S2、根据旅游门票的样本产品特征,结合预设的产品标签数,构建标签树,其中,标签树包括一级标签和二级标签;
S3、根据预设的样本标签数据集,通过文本分析技术和多分类算法,以训练得到大类标签预测模型;
S4、由大类标签预测模型对旅游门票的实际产品信息进行大类标签分类,将大类标签作为旅游门票的一级标签数据;
S5、通过关键词提取方法对旅游门票的实际产品信息进行标签细分,得到旅游门票的二级标签数据,结合步骤S4中旅游门票的一级标签数据,即得到旅游门票的产品画像;
所述样本标签数据集包括多个产品信息,所述产品信息包括多个景点描述文档,所述景点描述文档由不同的产品特征组成,所述产品特征包括产品标题和对应的产品描述文本;
所述步骤S3具体包括以下步骤:
S31、从样本标签数据集中随机选择N个景点描述文档作为训练集,样本标签数据集中剩余的景点描述文档作为测试集;
S32、将训练集输入逻辑回归模型,采用文本分析技术和链式关联多分类算法进行模型训练,得到训练好的逻辑回归模型;
S33、将测试集输入训练好的逻辑回归模型,若输出分类概率小于或等于预设概率值,则该训练好的逻辑回归模型即为大类标签预测模型,否则返回步骤S31。
2.根据权利要求1所述的一种旅游门票产品画像生成方法,其特征在于,所述一级标签包括文化、自然、玩乐、运动和历史共五个大类。
3.根据权利要求1所述的一种旅游门票产品画像生成方法,其特征在于,所述步骤S5具体包括以下步骤:
S51、基于预设的分词词库,对旅游门票的实际产品信息进行分词处理;
S52、从多个分词中提取关键词;
S53、将提取的关键词映射至标签树的二级标签,得到旅游门票的二级标签数据;
S54、结合旅游门票的一级标签数据和二级标签数据,即得到旅游门票的产品画像。
4.根据权利要求3所述的一种旅游门票产品画像生成方法,其特征在于,所述步骤S51具体是采用Ansj中文分词工具对旅游门票的实际产品信息进行分词处理。
5.根据权利要求4所述的一种旅游门票产品画像生成方法,其特征在于,所述步骤S52具体是采用TF-IDF算法从分词中提取关键词。
6.根据权利要求5所述的一种旅游门票产品画像生成方法,其特征在于,所述步骤S52具体包括以下步骤:
S521、计算各分词的词频和逆向文件频率,得到各分词的TF-IDF值;
S522、将各分词的TF-IDF值按从大至小的顺序进行排序,选择TF-IDF值排序靠前70%的分词作为关键词。
7.根据权利要求6所述的一种旅游门票产品画像生成方法,其特征在于,所述词频的计算公式为:
其中,tf为分词的词频,nw为分词在产品信息中出现的次数,np为产品信息中心出现各分词的次数;
逆向文件频率的计算公式为:
其中,idf为分词的逆向文件频率,∑Dw为产品信息中包含该分词的景点文档数量,∑Da为产品信息中全部景点文档数量;
TF-IDF值的计算公式为:
TF-IDF=tf*idf。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海景域文化传播股份有限公司,未经上海景域文化传播股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911175273.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:充电方法及待充电设备
- 下一篇:一种高速公路路堑边坡生态防护系统