[发明专利]基于大数据的标签提取方法、装置及计算机可读存储介质有效

申请号：	201910246350.9	申请日：	2019-03-28
公开（公告）号：	CN109753563B	公开（公告）日：	2019-09-10
发明（设计）人：	张勇	申请（专利权）人：	深圳市酷开网络科技有限公司
主分类号：	G06F16/332	分类号：	G06F16/332;G06K9/62;G06N3/06;G06N3/08
代理公司：	深圳市世纪恒程知识产权代理事务所 44287	代理人：	胡海国
地址：	518108 广东省深圳市南***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	标签矩阵标签提取次矩阵大数据预设计算机可读存储介质文本指令标签相乘神经网络算法概率转换数据模型词条准确率层级集合
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种基于大数据的标签提取方法，包括在接收到用户输入的文本指令时，基于用户输入的文本指令在数据模型中进行标签提取并利用神经网络算法计算生成二次标签矩阵；将形成的排名最高的预设数量的信息词条以及预设数量的对应的父子层级集合进行概率转换计算，形成一次标签矩阵；将生成的一次标签矩阵与二次标签矩阵相乘得到三次矩阵;基于形成的三次矩阵，取三次矩阵中预设数量标签。此外本发明还提供一种基于大数据的标签提取装置。此外本发明还提供一种计算机可读存储介质。提高标签的提取准确率和效率。

技术领域

本发明涉及大数据技术领域，尤其涉及基于大数据的标签提取方法、装置及计算机可读存储介质。

背景技术

标签作为对内容的刻画特征，对于内容理解及推荐系统起到至关重要的作用。

目前业界对于标签的提取，常见于利用专业字典对专业文献进行标签的提取。例如，通过对旅游相关网页的文本数据进行分词得到的多个词语，在该多个词语中，若存在旅游字典预存的关键词，且该关键词出现的频率大于设定阈值，则将该关键词作为该网页文本内容的标签。随着大数据的发展，现有提取标签的方法已经不能满足各业务发展要求，对于用户输入的内容进行标签的提取往往准确率低、效率低下。

如何保证标签的提取准确率高、效率高目前尚未有有效的解决方案。

发明内容

本发明的主要目的在于提供基于大数据的标签提取方法、装置及计算机可读存储介质，旨在提高标签的提取准确率、效率。

为实现上述目的，本发明提出一种基于大数据的标签提取方法，包括：

在接收到用户输入的文本指令时，基于用户输入的文本指令在数据模型中进行标签提取并利用神经网络算法计算生成二次标签矩阵;

将形成的排名最高的预设数量的信息词条以及预设数量的对应的父子层级集合进行概率转换计算，形成一次标签矩阵；

将生成的一次标签矩阵与二次标签矩阵相乘得到三次矩阵;

基于形成的三次矩阵，取三次矩阵中预设数量标签。

可选的，所述在接收到用户输入的文本指令时，基于用户输入的文本指令在数据模型中进行标签提取并计算生成二次标签矩阵步骤之前包括：

采集行业语料；

将采集到的行业语料进行nlp分词，生成N份行业语料数据；

对N份行业语料数据，进行训练形成数据模型，其中N为正整数。