[发明专利]主题词分类模型创建方法、创建装置及存储介质有效
申请号: | 201710447182.0 | 申请日: | 2017-06-14 |
公开(公告)号: | CN107330009B | 公开(公告)日: | 2022-03-08 |
发明(设计)人: | 孙子荀 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 深圳翼盛智成知识产权事务所(普通合伙) 44300 | 代理人: | 黄威 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 主题词 分类 模型 创建 方法 装置 存储 介质 | ||
1.一种主题词分类模型创建方法,其特征在于,包括:
获取多个模型训练文档,并提取所述模型训练文档的标签词,以建立所述模型训练文档与所述标签词的映射内容库;
基于相似度算法,获取所述标签词对应的核心主题词组;其中所述核心主题词组中包括多个核心主题词;
基于所述映射内容库,获取所述核心主题词组对应的第一模型训练文档集合;
基于机器学习算法,对多个所述模型训练文档进行分类操作;其中每个类别的模型训练文档具有一个主体类别标识;
基于所述映射内容库,获取所述标签词对应的所有模型训练文档的主体类别标识,并将所述主体类别标识对应的所有模型训练文档作为第二模型训练文档集合;以及
将所述标签词对应的第一模型训练文档集合和第二模型训练文档集合中重复的模型训练文档作为正样本,所述映射内容库中的其他模型训练文档作为负样本,创建所述标签词的主题词分类模型。
2.根据权利要求1所述的主题词分类模型创建方法,其特征在于,
所述获取多个模型训练文档的步骤包括:
通过网络内容爬虫,获取多个模型训练文档;
所述提取所述模型训练文档的标签词的步骤包括:
基于TextRank算法,提取所述模型训练文档的标签词。
3.根据权利要求1所述的主题词分类模型创建方法,其特征在于,所述基于相似度算法,获取所述标签词对应的核心主题词组的步骤包括:
计算所述模型训练文档中所有词语单元的词向量;
根据所述词语单元的词向量,获取所述标签词对应的预备主题词组;以及
根据所述预备主题词组中预备主题词的出现次数,获取所述标签词对应的核心主题词组。
4.根据权利要求3所述的主题词分类模型创建方法,其特征在于,所述据所述词语单元的词向量,获取所述标签词对应的预备主题词组的步骤包括:
根据所述词语单元的词向量,获取与所述标签词的向量距离小于第一设定值的所有第一预备主题词;
根据所述词语单元的词向量,获取与所述第一预备主题词的向量距离小于第二设定值的第二预备主题词;以及
使用所有第一预备主题词和对应的第二预备主题词,建立预备主题词组;其中所述预备主题词组中包括多个预备主题词。
5.根据权利要求3所述的主题词分类模型创建方法,其特征在于,所述根据所述预备主题词组中预备主题词的出现次数,获取所述标签词对应的核心主题词组的步骤包括:
将所述预备主题词组中出现次数小于第三设定值的预备主题词删除,从而获取所述标签词对应的核心主题词组。
6.根据权利要求1所述的主题词分类模型创建方法,其特征在于,所述将所述主体类别标识对应的所有模型训练文档作为第二模型训练文档集合的步骤包括:
根据所述标签词对应的所有模型训练文档的主体类别标识的出现次数,设定所述标签词的主体类别标识集合;以及
根据所述标签词的主体类别标识集合中的主体类别标识,确定所述标签词对应的第二模型训练文档集合。
7.根据权利要求6所述的主题词分类模型创建方法,其特征在于,所述根据所述标签词对应的所有模型训练文档的主体类别标识的出现次数,设定所述标签词的主体类别标识集合的步骤包括:
将出现次数大于第四设定值的标签词对应的所有模型训练文档的主体类别标识,设置到所述标签词的主体类别标识集合中。
8.根据权利要求6所述的主题词分类模型创建方法,其特征在于,所述根据所述标签词对应的所有模型训练文档的主体类别标识的出现次数,设定所述标签词的主体类别标识集合的步骤包括:
按出现次数,由大到小对所述标签词对应的所有模型训练文档的主体类别标识进行排序;以及
将排序后的前n个主体类别标识,设置到所述标签词的主体类别标识集合中;其中n为正整数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710447182.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种直联无油空气压缩机
- 下一篇:一种基于机器学习的后台路径爆破方法