[发明专利]一种文本相关主题的推荐方法和装置有效
| 申请号: | 201110400248.3 | 申请日: | 2011-12-05 |
| 公开(公告)号: | CN103136300B | 公开(公告)日: | 2017-02-01 |
| 发明(设计)人: | 谢双宾;薛永刚 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙)11412 | 代理人: | 袁媛 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文本 相关 主题 推荐 方法 装置 | ||
1.一种文本相关主题的推荐方法,其特征在于,包括以下步骤:
S1、获取文本内容,对文本内容进行分词得到词项Term,计算各个Term的权重,根据Term的权重确定所述文本内容的中心词和辅助词;
S2、利用所述中心词到已有的主题集合中进行匹配,将包含所述中心词的主题作为候选主题,构成候选主题集合;
S3、根据候选主题对应的资源数和候选主题与所述辅助词的相关性,计算各候选主题的综合权重;
S4、将综合权重满足预设要求的候选主题作为推荐的相关主题。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1具体包括:
获取文本内容;
对获取的文本内容进行分词处理,得到Term;
基于Term的倒文档率IDF计算各个Term的权重;
将权重满足中心词预设要求的Term确定为所述文本内容的中心词;将权重满足辅助词预设要求的Term确定为辅助词。
3.根据权利要求2所述的方法,其特征在于,在所述基于Term的倒文档率IDF计算各个Term的权重后,还将各个Term的权重依据所述文本内容的长度进行调权处理。
4.根据权利要求2所述的方法,其特征在于,所述中心词预设要求包括:
Term的权重排在前N1个;或者,
Term的权重大于预设第一阈值Q1;
或者,Term的权重大于预设第三阈值Q3且排在前N1个;
对应地,辅助词预设要求包括:
Term的权重排在前N1+1至前N2个;或者,
Term的权重在预设第一阈值Q1和预设第二阈值Q2之间;
或者,Term的权重大于预设第三阈值Q3且排在前N1+1至前N2个;
其中,N1、N2为预设正整数,且N1<N2,0<Q2<Q1≤1,0<Q3≤1。
5.根据权利要求1所述的方法,其特征在于,所述已有的主题集合中采用中心词和标记词的组合表示各个主题,该主题集合的建立包括以下步骤:
A1、从用户搜索日志中获取搜索关键词,将所述搜索关键词分成一个或多个词条,并记录各词条在搜索关键词中出现的位置;
A2、将步骤A1确定的词条中指向某一实体的词条构成候选中心词集合,将候选中心词集合中在所述搜索关键词的首部没有出现的词条过滤掉,得到中心词集合;
A3、将步骤A1确定的词条中描述实体特性的词条构成候选标记词集合,将候选标记词集合中在所述搜索关键词的尾部没有出现的词条过滤掉,得到标记词集合;
A4、利用所述中心词集合和标记词集合中的词条得到中心词和标记词的组合,将在所述搜索关键词中没有出现的组合过滤掉,得到主题集合。
6.根据权利要求1所述的方法,其特征在于,所述步骤S3包括以下步骤:
根据候选主题集合中各个候选主题对应的资源数,计算候选主题的第一权重W1;
根据候选主题与辅助词的相关性,计算候选主题的第二权重W2;
对计算得到的候选主题的第一权重W1和第二权重W2进行线性加权,得到候选主题的综合权重W。
7.根据权利要求6所述的方法,其特征在于,所述候选主题的第一权重W1为:所述候选主题对应的资源数与候选主题集合中各候选主题对应的最大的资源数的比值。
8.根据权利要求6所述的方法,其特征在于,所述候选主题的第二权重W2为:Ws与Ws_max的比值,其中Ws为所述候选主题的标记词与各所述辅助词之间的相关性之和,Ws_max为针对候选主题集合中各候选主题计算出的Ws的最大值。
9.根据权利要求1所述的方法,其特征在于,所述满足预设要求包括:
候选主题的综合权重W排在前N3个,N3为预设正整数;
或者,候选主题的综合权重W大于预设主题权重阈值Q4,0<Q4≤1。
10.根据权利要求1所述的方法,其特征在于,在所述步骤S4中还包括依据综合权重对各候选主题进行排序,且在排序时进行以下处理:
将所包含标记词在所述文本内容中出现的候选主题的排序提前;
或者,将与按照综合权重排在前面的候选主题存在字面重复的候选主题的综合权重降权。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110400248.3/1.html,转载请声明来源钻瓜专利网。





