[发明专利]基于大数据的标签提取方法、装置及计算机可读存储介质有效
| 申请号: | 201910246350.9 | 申请日: | 2019-03-28 |
| 公开(公告)号: | CN109753563B | 公开(公告)日: | 2019-09-10 |
| 发明(设计)人: | 张勇 | 申请(专利权)人: | 深圳市酷开网络科技有限公司 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06K9/62;G06N3/06;G06N3/08 |
| 代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 胡海国 |
| 地址: | 518108 广东省深圳市南*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 标签矩阵 标签提取 次矩阵 大数据 预设 计算机可读存储介质 文本指令 标签 相乘 神经网络算法 概率转换 数据模型 词条 准确率 层级 集合 | ||
本发明提供一种基于大数据的标签提取方法,包括在接收到用户输入的文本指令时,基于用户输入的文本指令在数据模型中进行标签提取并利用神经网络算法计算生成二次标签矩阵;将形成的排名最高的预设数量的信息词条以及预设数量的对应的父子层级集合进行概率转换计算,形成一次标签矩阵;将生成的一次标签矩阵与二次标签矩阵相乘得到三次矩阵;基于形成的三次矩阵,取三次矩阵中预设数量标签。此外本发明还提供一种基于大数据的标签提取装置。此外本发明还提供一种计算机可读存储介质。提高标签的提取准确率和效率。
技术领域
本发明涉及大数据技术领域,尤其涉及基于大数据的标签提取方法、装置及计算机可读存储介质。
背景技术
标签作为对内容的刻画特征,对于内容理解及推荐系统起到至关重要的作用。
目前业界对于标签的提取,常见于利用专业字典对专业文献进行标签的提取。例如,通过对旅游相关网页的文本数据进行分词得到的多个词语,在该多个词语中,若存在旅游字典预存的关键词,且该关键词出现的频率大于设定阈值,则将该关键词作为该网页文本内容的标签。随着大数据的发展,现有提取标签的方法已经不能满足各业务发展要求,对于用户输入的内容进行标签的提取往往准确率低、效率低下。
如何保证标签的提取准确率高、效率高目前尚未有有效的解决方案。
发明内容
本发明的主要目的在于提供基于大数据的标签提取方法、装置及计算机可读存储介质,旨在提高标签的提取准确率、效率。
为实现上述目的,本发明提出一种基于大数据的标签提取方法,包括:
在接收到用户输入的文本指令时,基于用户输入的文本指令在数据模型中进行标签提取并利用神经网络算法计算生成二次标签矩阵;
将形成的排名最高的预设数量的信息词条以及预设数量的对应的父子层级集合进行概率转换计算,形成一次标签矩阵;
将生成的一次标签矩阵与二次标签矩阵相乘得到三次矩阵;
基于形成的三次矩阵,取三次矩阵中预设数量标签。
可选的,所述在接收到用户输入的文本指令时,基于用户输入的文本指令在数据模型中进行标签提取并计算生成二次标签矩阵步骤之前包括:
采集行业语料;
将采集到的行业语料进行nlp分词,生成N份行业语料数据;
对N份行业语料数据,进行训练形成数据模型,其中N为正整数。
可选的,将形成的排名最高的预设数量的信息词条以及预设数量的对应的父子层级集合进行概率转换计算,形成一次标签矩阵的步骤之前包括:
采集信息词条语料;
基于采集到的信息词条语料,对每条信息词条语料计算排名值;
利用每条信息词条语料排名值,提取排名最高的预设数量的信息词条以及预设数量的信息词条对应的父子层级集合。
可选的,所述对N份行业语料数据,进行训练形成数据模型其中N为正整数的步骤之后包括:
对形成的数据模型进行验证。
可选的,在接收到用户输入的文本指令时,基于用户输入的文本指令在数据模型中进行标签提取并计算生成二次标签矩阵的步骤包括:
根据接收到的用户的输入文本指令,使用TextRnk关键词提取算法进行计算获得用户输入文本关键词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市酷开网络科技有限公司,未经深圳市酷开网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910246350.9/2.html,转载请声明来源钻瓜专利网。





