[发明专利]基于Word2Vec和Querylog抽取关键词方法有效
申请号: | 201510219784.1 | 申请日: | 2015-04-30 |
公开(公告)号: | CN104778161B | 公开(公告)日: | 2017-07-07 |
发明(设计)人: | 张平 | 申请(专利权)人: | 车智互联(北京)科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京市盛峰律师事务所11337 | 代理人: | 于国富 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于Word2Vec和Query log抽取关键词方法,涉及信息处理领域。该方法包括S1,构建目标领域的特定词表;S2,获取文档集合中每个文档的候选关键词;S3,获取每个所述候选关键词的若干维的词向量;S4,计算任意一个候选关键词L的词向量与所述中心向量的余弦相似度,判断候选关键词L是否出现在特定词表中,如果出现,则直接进入S5;如果不出现,则进入S6;S5,将得到余弦相似度乘以加权因子i,获得新余弦相似度,进入S6;S6,将余弦相似度的数值从大到小顺序排序,从余弦相似度数值最大开始输出m个余弦相似度的数值,即得最终关键词。本发明可针对特定领域文本迅速高效地提取出质量较为理想的关键词,避免引入口语化词汇且提取出的关键词质量高。 | ||
搜索关键词: | 基于 word2vec query log 抽取 关键词 方法 | ||
【主权项】:
一种基于Word2Vec和Query log抽取关键词方法,其特征在于,该方法包括以下步骤:S1,利用query log数据,构建目标领域的特定词表;S2,在文档集合和特定词表的基础上,获取文档集合中每个文档的候选关键词;S3,训练得到目标领域的Word2Vec模型,将每个文档中的候选关键词代入所述模型,得到每个所述候选关键词的若干维的词向量;S4,计算任意一个文档A中任意一个候选关键词L对应的词向量与所述文档A的中心向量的余弦相似度,判断候选关键词L是否出现在特定词表中,如果出现,则直接进入S5;如果不出现,则进入S6;S5,将所述候选关键词L的余弦相似度乘以加权因子i,得到新余弦相似度,进入S6;S6,将得到的余弦相似度的数值按照从大到小的顺序排序,然后按照预先设定的关键词数量m,从所述排序中余弦相似度数值最大开始输出m个余弦相似度的数值,m个余弦相似度的数值所对应的候选关键词即为最终关键词。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于车智互联(北京)科技有限公司,未经车智互联(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510219784.1/,转载请声明来源钻瓜专利网。
- 上一篇:一种数据迁移测试方法和系统
- 下一篇:载流量逆问题的计算方法