[发明专利]一种提取页面主题的方法和装置有效
申请号: | 201110080852.2 | 申请日: | 2011-03-31 |
公开(公告)号: | CN102737017A | 公开(公告)日: | 2012-10-17 |
发明(设计)人: | 刘海浪 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市威世博知识产权代理事务所(普通合伙) 44280 | 代理人: | 何青瓦;李庆波 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 提取 页面 主题 方法 装置 | ||
【技术领域】
本发明涉及计算机技术领域,特别涉及一种提取页面主题的方法和装置。
【背景技术】
无论是页面搜索中的排序、页面主题词的确定或者其他方面都会涉及到页面主题的获取,例如,在页面搜索的排序中,会将页面主题与query之间相关度越高的排在越前面,页面主题词通常从页面主题中提取,等等。
目前,通常简单地将页面的整个标题段落(title)作为页面主题。但是页面的title中可能存在多个段落,有些段落是页面主题不相关的内容,会造成页面主题的偏移。应用在页面搜索的排序中可能不能够准确地满足用户需求,应用在页面主题词的确定中可能造成确定的页面主题词不能够准确地体现页面主题。
【发明内容】
本发明提供了一种提取页面主题的方法和装置,以便于减小提取的页面主题与实际页面主题的偏差。
具体技术方案如下:
一种提取页面主题的方法,该方法包括:
A、获取页面中表达页面主题的候选段落;
B、如果存在可再分段的候选段落,则对可再分段的候选段落进行分段处理;否则执行步骤C;
C、分别计算步骤B之后得到的各段落的置信度;
D、将置信度满足预设的置信度要求的段落作为页面主题段落。
上述步骤A中获取的所述候选段落包括以下所列的至少一个:
标签为title的页面标题段落、标签为realtitle的页面标题行、标签为mypos的导航段落以及标签为preanchor的前链。
具体地,步骤B中,如果存在包含预设类型的符号的候选段落,则确定该候选段落可再分段,并以所述预设类型的符号为分隔符对可再分段的候选段落进行分段处理。
其中,所述预设类型的符号包括:标点符号、空格、下划线、斜线或者括号。
另外,所述步骤C具体包括:
C1、对所述步骤B之后得到的各段落进行分词处理;
C2、按照公式Dij=α*Sij+β*Pij,计算分词处理后得到各词语的置信度,其中,Dij为第i个段落分词处理后得到的第j个词语的置信度,Sij为第i个段落分词处理后得到的第j个词语在所述各段落中出现的总频次,Pij为第i个段落分词处理后得到的第j个词语在所述页面中出现的频次,α和β为预设的加权系数;
C3、利用各段落中包含的各词语的置信度,分别得到所述各段落的置信度。在所述步骤C3中,第i个段落的置信度Di可以为:N为第i个段落分词处理后得到的词语数目。
较优地,在所述步骤C或者所述步骤D之前,还包括:
根据预设的站点词典,将所述各段落中出现所述站点词典中内容占段落长度的比例达到预设的比例阈值的段落过滤掉。
具体地,步骤D中所述置信度要求包括:段落的置信度达到预设的置信度阈值;或者,
段落的置信度排在所述各段落中的前N个;或者,
段落的置信度达到预设的置信度阈值且排在所述各段落中的前N个;其中N为预设的正整数。
更进一步地,该方法还包括分别对所述页面主题段落执行以下步骤:
E、对所述页面主题段落进行分词处理;
F、对分词处理后得到的各词语进行词性标注;
G、对分词处理后得到的各词语执行以下过滤操作中的至少一个:
将预设的停用词表所包含的词语从分词处理后得到的各词语中过滤掉;
将非独立表意的词语从分词处理后得到的各词语中过滤掉;
如果分词处理后得到的各词语中存在互为上下位关系的词语,则将上位的词语从分词处理后得到的各词语中过滤掉;以及,
将页面类型属性词从分词处理后得到的各词语中过滤掉;
H、将分词处理后得到的各词语执行步骤G之后余下的词语确定为所述页面的主题词。
其中,所述将页面类型属性词从分词处理后得到的各词语中过滤掉包括:
如果所述页面是预设的页面类型,则将所述页面的类型属性词从分词处理后得到的各词语中过滤掉;其中所述预设的页面类型包括:视频类型、小说类型、音频类型、游戏类型或者论坛类型。
一种提取页面主题的装置,该装置包括:段落获取单元、分段处理单元、置信度计算单元和主题段落确定单元;
所述段落获取单元,用于获取页面中表达页面主题的候选段落并提供给所述分段处理单元;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110080852.2/2.html,转载请声明来源钻瓜专利网。