[发明专利]一种词条的获取方法和装置在审

专利信息
申请号: 201210151282.6 申请日: 2012-05-15
公开(公告)号: CN103425660A 公开(公告)日: 2013-12-04
发明(设计)人: 李永强 申请(专利权)人: 北京百度网讯科技有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京鸿德海业知识产权代理事务所(普通合伙) 11412 代理人: 袁媛
地址: 100085 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 词条 获取 方法 装置
【说明书】:

【技术领域】

发明涉及互联网信息处理技术领域,特别涉及一种词条的获取方法和装置。

【背景技术】

随着信息和网络技术的不断发展,人们越来越多地通过互联网进行各种知识和信息的搜索。百科网站是一个互联网所有用户均能平等的浏览、创造、完善内容的平台,例如百度百科、维基百科、互动百科等,能够让互联网用户通过百科网站即能找到自己想要的全面、准确、客观的定义性信息,可供其他用户进行类似主题的查询和浏览,以便提供相应的知识或者借鉴。

词条是百科网站所含内容的基础分割单位,一个词条具有一个或多个单一的主题,用于阐述一件事物、一个人物、或者具备特定主题的组合等知识内容,例如:“故宫”、“刘德华”、“2008年北京奥运会”等。在百科网站中包括极大数量的词条,这些词条记录了各种行业、各种主题、各种知识领域的内容。对于搜索引擎来说,利用这些百科词条可以大大提高检索的准确性和检索覆盖率,并且有利于从网页中提取结构化数据,用以进行垂直搜索,得到更为精确的信息。

随着信息的大量传播以及人们交流内容的不断扩展,新词条层出不穷。现有的新词条都是通过人工添加并创建新词条对应的知识内容,进而通过人工审核的方式将创建合格的新词条添加到百科网站中,以供用户进行知识和信息的搜索。对于一个未创建新词条,比如新的歌曲、电影、人物等,系统并不会在互联网上主动发现,导致一些新词条无法及时创建和更新,影响搜索引擎的检索速度,甚至还会影响检索的准确性和召回率。

【发明内容】

有鉴于此,本发明提供了一种词条的获取方法和装置,利用已有词库挖掘实体词条,可指导用户创建新词,解决百科数据库中实体词条收录不足的问题,便于实现更有效的知识搜索。

具体技术方案如下:

一种词条的获取方法,该方法包括以下步骤:

S1、获取词条库中同一分类的已有词条集合;

S2、利用所获取的已有词条集合进行搜索,得到包含所述已有词条的锚文本,并记录所述已有词条的锚文本所在的网页位置;

S3、根据所记录的网页位置,在相应的位置提取与所述已有词条的锚文本之间的上下文距离满足预设要求的锚文本。

根据本发明一优选实施例,在所述步骤S3之后,还包括:

S4、根据与所述已有词条的锚文本之间的上下文距离计算所提取的锚文本的权重,统计所提取的锚文本在当前分类中出现的频度,将频度或权重满足预设要求的锚文本识别为新词条。

根据本发明一优选实施例,所述锚文本所在的网页位置,包括:

锚文本所在的网页、锚文本所在的网页分块以及锚文本在网页分块中的位置。

根据本发明一优选实施例,所述上下文距离满足预设要求包括:

所提取的锚文本所在的网页分块与已有词条的锚文本所在的网页分块相同。

根据本发明一优选实施例,所述上下文距离满足要求,还包括:

所提取的锚文本与已有词条的锚文本的间隔距离小于预设距离阈值。

根据本发明一优选实施例,所述根据与所述已有词条的锚文本之间的上下文距离计算所提取的锚文本的权重,具体包括:

在同一网页分块中,确定所提取的锚文本与已有词条的锚文本的上下文距离;

利用确定的上下文距离,计算在对应的网页分块中所提取的锚文本的权重;

在整个当前分类下,将提取到的各个网页分块中计算得到的所提取的锚文本的权重进行求和,得到所提取的锚文本的权重。

根据本发明一优选实施例,所述在同一网页分块中确定所提取的锚文本与已有词条的锚文本的上下文距离,具体包括:

确定所提取的锚文本所在的网页分块中包含的已有词条的锚文本;

计算所提取的锚文本与获取的各个已有词条的锚文本之间的距离;

选取距离的最小值作为与已有词条的上下文距离。

根据本发明一优选实施例,在所述步骤S3之后,还包括:

将所提取的锚文本与所述词条库进行对比,得到未收录的锚文本;

仅对所述未收录的锚文本执行所述步骤S4。

根据本发明一优选实施例,在所述步骤S3之后,还包括:

将所提取的锚文本中不包含指定词性的锚文本过滤掉;

仅对过滤后剩余的锚文本执行所述步骤S4。

一种词条的获取装置,该装置包括:

已有词条获取模块,用于获取词条库中同一分类的已有词条集合;

搜索模块,用于利用所述已有词条获取模块获取的已有词条集合进行搜索,得到包含所述已有词条的锚文本,并记录所述已有词条的锚文本所在的网页位置;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210151282.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top