[发明专利]一种识别搜索对应的需求分类的方法和系统有效
申请号: | 201410330444.1 | 申请日: | 2014-07-11 |
公开(公告)号: | CN104199822B | 公开(公告)日: | 2018-05-18 |
发明(设计)人: | 杨锦峰;吴峰 | 申请(专利权)人: | 五八同城信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京律恒立业知识产权代理事务所(特殊普通合伙) 11416 | 代理人: | 顾珊;庞立岩 |
地址: | 300457 天津市滨海新*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 识别 搜索 对应 需求 分类 方法 系统 | ||
1.一种识别搜索对应的需求分类的方法,所述方法包括如下步骤:
a)对输入的搜索词进行分词操作,得到至少一个关键词;
b)提取所述关键词在神经网络语言模型中的模型向量;
c)根据所述模型向量计算所述搜索词在多个需求分类下的相关性分数,并生成待识别向量;所述待识别向量的生成包括以下步骤:
c1)根据所述关键词的模型向量计算所述搜索词的模型向量;其中,将所述关键词的模型向量分别乘以所述关键词在各需求分类的权重,然后将这些乘积相加,计算所述搜索词的模型向量;
c2)计算所述搜索词的模型向量与各个所述需求分类下的各热点模型向量之间的距离;其中,所述热点模型向量为所述各需求分类下的热点词在所述神经网络语言模型中的模型向量;
c3)根据所述距离分析所述搜索词与所述各需求分类的相关性分数;其中利用所述距离分析所述搜索词与所述各需求分类的相关性分数的方式选自以下方式中的任意一种:
方式1:将所述距离的平均值作为所述相关性分数;
方式2:将所述距离的最大值作为所述相关性分数;
方式3:将所述距离之和作为所述相关性分数;
方式4:将所述距离先加权再求和以作为所述相关性分数;
方式5;当所述热点词为一个时,所述搜索词的模型向量与各个所述需求分类下的各热点模型向量之间的距离直接作为所述搜索词与所述各需求分类的相关性分数;
c4)将所述搜索词与所述各需求分类的相关性分数汇总,并将所述各需求分类的相关性分数汇总与点击特征和/或用户个性化特征相加,生成待识别向量;
d)利用分类器对待识别向量进行判断,得到所述搜索词对应的需求分类,所述分类器的训练方法包括以下步骤:
d1)以不同的算法训练分类器,所述不同的方法选自SVM、MaxEnt、DBN Classifier、AdaBoost、GBDT;
d2)分别利用由所述不同算法训练的分类器判断出所述搜索词的需求分类;
d3)将所述分类器分别判断出的所述需求分类的结果进行融合,作为分类器对所述搜索词的需求分类的判断结果;
d4)将所述判断结果与预期的需求分类相比较,若所述判断结果与预期的需求分类不相符,则修正所述分类器。
2.根据权利要求1所述的方法,其特征在于,确定所述各需求分类下的所述热点词的方式选自下列任意一种:
方式1:利用特征选择算法分别计算出与各需求分类相关性最大的关键词或搜索词作为所述热点词;
方式2:选取在所述各需求分类中用户搜索次数最多的关键词或搜索词作为所述热点词;
方式3:以人工配置的方式设置所述热点词。
3.根据权利要求1所述的方法,其特征在于,所述距离为余弦相似度或欧式距离。
4.根据权利要求1所述的方法,其特征在于,所述点击特征包括以下特征数据中的至少一个:各个所述需求分类的搜索结果数、所述搜索词在所述各需求分类下的点击率、所述搜索词的搜索点击时间、点击各个所述需求分类的次数/所述搜索词的用户搜索次数、点击各个需求分类的次数/所述搜索词的用户年龄组别搜索次数、所述搜索词的用户地域。
5.根据权利要求1所述的方法,其特征在于,进行所述融合的算法选自Voting算法、Boosting算法或加权求和算法其中任意一种。
6.根据权利要求1所述的方法,其特征在于,在步骤d之前还包括,提取用户个性化特征,所述待识别向量的生成还考虑所述用户个性化特征。
7.根据权利要求1所述的方法,其特征在于,在得到所述搜索词的需求分类之后对所述搜索词在该需求分类的子类下进行识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于五八同城信息技术有限公司,未经五八同城信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410330444.1/1.html,转载请声明来源钻瓜专利网。