[发明专利]课程标签的生成方法、装置、计算机设备及介质有效
| 申请号: | 202110078984.5 | 申请日: | 2021-01-21 |
| 公开(公告)号: | CN112395421B | 公开(公告)日: | 2021-05-11 |
| 发明(设计)人: | 熊龙飞;张茜;张敏;黄敏婕;胡立波;余晋琳 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62;G06F40/216;G06F40/289 |
| 代理公司: | 深圳市世联合知识产权代理有限公司 44385 | 代理人: | 汪琳琳 |
| 地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 课程 标签 生成 方法 装置 计算机 设备 介质 | ||
本发明涉及数据处理领域,公开了一种课程标签的生成方法、装置、计算机设备及介质,所述方法包括:采集目标课程的交互评论数据,得到初始语句,对初始语句进行文本预处理,得到处理语句,采用预设的分词方式,对所述处理语句进行分词处理,得到目标分词,基于TF‑IDF算法,对目标分词进行词频和逆文本频率指数的计算,并通过词频和逆文本频率指数,确定目标分词的评估值,根据目标分词的评估值对目标分词进行排序,并从前往后选取预设阈值的目标分词,作为二级课程标签,通过聚类的方式,将二级课程标签归类到预设的一级课程标签下,得到目标课程的目标课程标签体系。本发明有利于提高课程标签体系生成的精准程度。
技术领域
本发明涉及数据处理领域,尤其涉及一种课程标签的生成方法、装置、计算机设备及介质。
背景技术
随着信息化技术的飞速发展,越来越多企业会向用户或员工提供一些学习课程,在一些知名的资源站点上,有众多种类的课程以及大量的用户群体,如何才能从供需的角度,更优的把各个群体关注的课程推送到,就需要获取海量课程的标签。同时,精准的课程标签还可以帮忙课程提供商对课程进行改进完善,目前除了课程上线时,人工标注的很粗粒度的标签外,还急需一种能够更高效、精准的、自动化获取课程标签的方法。
目前会有一些方案,是从课程相关的内容中获取一些文本信息,进而利用统计机器学习模型学习词语切分的规律(称为训练),从而实现对未知文本的切分,来实现关键信息的提取,作为课程标签。例如最大概率分词方法和最大熵分词方法等。在实际的应用中,基于统计的分词系统都需要使用分词词典来进行字符串匹配分词,这种方法具有局限性,在出现一些新词时,往往不能准确识别,使得的生成标签的准确性不够。
发明内容
本发明实施例提供一种课程标签的生成方法、装置、计算机设备和存储介质,以提高课程标签生成的精准程度。
为了解决上述技术问题,本申请实施例提供一种课程标签的生成方法,包括:
采集目标课程的交互评论数据,得到初始语句;
对所述初始语句进行文本预处理,得到处理语句;
采用预设的分词方式,对所述处理语句进行分词处理,得到目标分词;
针对每个所述目标分词,基于TF-IDF算法,对所述目标分词分别进行词频的计算和逆文本频率指数的计算,并通过得到的词频和得到的逆文本频率指数,确定所述目标分词的评估值;
根据所述目标分词的评估值对所述目标分词进行排序,并从前往后选取预设阈值的目标分词,作为二级课程标签;
通过聚类的方式,将所述二级课程标签归类到预设的一级课程标签下,得到所述目标课程的目标课程标签体系。
可选地,所述采集目标课程的交互评论数据,得到初始语句包括:
通过链接分析的方式,确定每个评论交互楼层的楼层权重;
根据每个所述楼层权重和预设权重阈值,确定目标楼层;
基于预设的排名策略,计算每个所述目标楼层的排名值,并根据所述排名值由大到小的顺序,对所述目标楼层进行排序,得到目标楼层队列;
基于所述目标楼层队列,抓取所述目标楼层中的内容,得到所述初始语句。
可选地,所述对所述初始语句进行文本预处理,得到处理语句包括:
对初始语句进行大小写统一和繁体转化,得到标准文本;
对所述标准文本进行无用词提取和标注,得到标注后的处理语句。
可选地,获取预设的训练语料库,并使用N-gram模型对所述预设的训练语料库进行分析,得到所述预设的训练语料库的词序列数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110078984.5/2.html,转载请声明来源钻瓜专利网。





