[发明专利]一种关键词组合策略的生成及关键词扩展方法、装置和设备有效
申请号: | 201711171680.3 | 申请日: | 2017-11-22 |
公开(公告)号: | CN108197098B | 公开(公告)日: | 2021-12-24 |
发明(设计)人: | 祝慧佳;赵智源;周书恒;刘金星 | 申请(专利权)人: | 创新先进技术有限公司 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/30;G06F40/247;G06F16/31;G06F16/35 |
代理公司: | 北京晋德允升知识产权代理有限公司 11623 | 代理人: | 杨移 |
地址: | 开曼群岛大开曼岛*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 关键词 组合 策略 生成 扩展 方法 装置 设备 | ||
本说明书实施例公开了一种关键词组合策略的生成及关键词扩展方法、装置和设备。通过人工输入或者自动从数据中提取风险主题相关的关键词,来获取初始的种子关键词,并根据种子关键词进行共现扩展和语义扩展得到更多的扩展关键词。基于种子关键词和扩展词,从数据中提取出含有这些关键词的语料,通过生成决策树模型的方式,确定关键词组合策略,选取其中评估结果较好(例如准确率高)且抗变种能力强的关键词组合策略推荐给用户。
技术领域
本说明书涉及计算机技术领域,尤其涉及一种关键词组合策略的生成及关键词扩展方法、装置和设备。
背景技术
互联网上每天有大量的信息产生和传播,安全需要随时维护,基于关键词的安防防控策略被广泛使用。
在当前技术中,安全防控策略中的关键词,一般基于人工对风险的观察和感知或者上层部门下发的要求进行添加,以及根据人为经验对关键词进行扩展和组合,以实现对互联网内容的安全控制。
基于此,需要一种更便利的关键词组合策略的生成及关键词扩展方案。
发明内容
本说明书实施例提供一种关键词组合策略的生成及关键词扩展方法、装置和设备,用于解决如下问题:以提供一种更便利的关键词组合策略的生成方案。
基于此,本说明书实施例提供一种关键词组合策略的生成方法,包括:
获取种子关键词;
根据所述种子关键词的语义,获取与所述语义相关的扩展关键词;
以关键词作为分类特征,对包含所述关键词的风险语料进行决策树分类,根据生成的决策树确定关键词组合策略;
其中,所述关键词组合策略由关键词和关键词之间的逻辑关系组成,所述关键词包括所述种子关键词和/或所述扩展关键词。
同时,本说明书实施例还提供一种基于语义的关键词扩展方法,包括:
获取种子关键词;
基于预先训练得到包含语义向量的关键词扩展模型,确定该种子关键词的语义向量;
计算其他词语所对应的语义向量与所述种子关键词的语义向量的距离,根据所述距离获取扩展扩展词;
其中,所述语义向量用于表征词的语义,所述包含语义向量的关键词扩展模型包括:基于通用语料训练得到的通用关键词扩展模型,或者,基于风险语料训练得到的风险关键词扩展模型。
同时,本说明书还提供一种关键词组合策略的生成装置,包括:
第一获取模块,获取种子关键词;
第二获取模块,根据所述种子关键词的语义,获取与所述语义相关的扩展关键词;
分类模块,以关键词作为分类特征,对包含所述关键词的风险语料进行决策树分类,根据生成的决策树确定关键词组合策略,其中,所述关键词组合策略由关键词和关键词之间的逻辑关系组成,所述关键词包括所述种子关键词和/或所述扩展关键词;
生成模块,根据生成的决策树确定关键词组合策略。
同时,本说明书实施例还提供一种关键词扩展装置,包括:
第一获取模块,获取种子关键词;
确定模块,基于预先训练得到包含语义向量的关键词扩展模型,确定该种子关键词的语义向量;其中,所述语义向量用于表征词的语义,所述包含语义向量的关键词扩展模型包括:基于通用语料训练得到的通用关键词扩展模型,或者,基于风险语料训练得到的风险关键词扩展模型。
第二获取模块,计算其他词语所对应的语义向量与所述种子关键词的语义向量的距离,根据所述距离获取扩展扩展词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新先进技术有限公司,未经创新先进技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711171680.3/2.html,转载请声明来源钻瓜专利网。