[发明专利]一种关键词组合策略的生成及关键词扩展方法、装置和设备有效
| 申请号: | 201711171680.3 | 申请日: | 2017-11-22 |
| 公开(公告)号: | CN108197098B | 公开(公告)日: | 2021-12-24 |
| 发明(设计)人: | 祝慧佳;赵智源;周书恒;刘金星 | 申请(专利权)人: | 创新先进技术有限公司 |
| 主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/30;G06F40/247;G06F16/31;G06F16/35 |
| 代理公司: | 北京晋德允升知识产权代理有限公司 11623 | 代理人: | 杨移 |
| 地址: | 开曼群岛大开曼岛*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 关键词 组合 策略 生成 扩展 方法 装置 设备 | ||
1.一种关键词组合策略的生成方法,包括:
获取种子关键词;
根据所述种子关键词的语义,获取与所述语义相关的扩展关键词;
以关键词作为分类特征,对包含所述关键词的风险语料进行决策树分类,根据生成的决策树确定关键词组合策略;其中,所述根据生成的决策树确定关键词组合策略,包括:获取所述决策树的任一叶子节点至根节点的路径;针对任一路径,根据该路径中所包括的所有关键词和分支确定该路径对应的关键词组合策略;确定所述决策树的任一叶子节点所对应的关键词组合策略和分类结果;根据评估指标,基于所述包含所述关键词的风险语料对所述叶子节点的分类结果进行评估;将评估指标符合条件的叶子节点所对应的关键词组合策略确定为推荐结果;
其中,所述关键词组合策略由关键词和关键词之间的逻辑关系组成,所述关键词包括所述种子关键词和/或所述扩展关键词。
2.如权利要求1所述的方法,获取种子关键词,包括:
接收用户手动输入的种子关键词;或者,
获取数据,通过预设算法对所述数据进行关键词提取,生成种子关键词。
3.如权利要求2所述的方法,通过预设算法对所述数据进行关键词提取,生成种子关键词,包括:
对所述数据进行聚类,生成多个数据子集;
通过预设算法,对任一所述数据子集进行关键词提取,获取该数据子集的多个关键词;
根据指定参数对所述多个关键词排序,基于排序结果确定该数据子集的种子关键词。
4.如权利要求3所述的方法,对获取得到的数据进行聚类,生成多个数据子集,包括:
根据已标记的风险数据和接收到的未标记的数据,构建分类器;
根据所述分类器对所述未标记的数据进行聚类,获得多个风险数据子集。
5.如权利要求1所述的方法,在根据所述种子关键词的语义,获取与所述语义相关的扩展关键词之前,还包括:
确定关键词扩展模型所采用的训练语料,所述训练语料包括通用语料或者风险语料;
基于所述训练语料,获取包含语义向量的关键词扩展模型,所述关键词扩展模型包括通用关键词扩展模型或者风险关键词扩展模型,所述语义向量用于表征词的语义。
6.如权利要求5所述的方法,根据所述种子关键词的语义,获取与所述语义相关的扩展关键词,包括:
根据所述包含语义向量的关键词扩展模型,确定所述种子关键词的语义向量;
计算其它任一词的语义向量与所述种子关键词的语义向量的距离;
根据所述距离确定扩展关键词。
7.如权利要求1所述的方法,在以关键词作为分类特征,对包含所述关键词的风险语料进行决策树分类之前,还包括:
基于指定语料,获取在指定条件下,其它词与所述种子关键词共同出现的次数或者概率;
确定所述共同出现的次数或者概率超过预设值的词为扩展关键词。
8.如权利要求1或7所述的方法,所述包含所述关键词的风险语料,采用如下方法得到:
获取包含所述关键词的有标风险语料和无标语料;
根据已确定的包含关键词的有标风险语料和所述无标语料,对所述无标语料进行标注,生成有标风险语料。
9.如权利要求8所述的方法,所述包含所述关键词的风险语料,还可以采用如下方法得到:
调整所述有标风险语料中,包含种子关键词的风险语料和包含扩展关键词的风险语料的权重。
10.如权利要求1所述的方法,还包括:
确定所述关键词组合策略中所包含的任一关键词的语义;
获取与所述语义相关的扩展关键词;
将所述关键词组合策略中的所述任一关键词替换为所述扩展关键词,生成另一关键词组合策略。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新先进技术有限公司,未经创新先进技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711171680.3/1.html,转载请声明来源钻瓜专利网。





