[发明专利]通用标签挖掘方法、装置、服务器及介质有效
申请号: | 201711294952.9 | 申请日: | 2017-12-08 |
公开(公告)号: | CN107992585B | 公开(公告)日: | 2020-09-18 |
发明(设计)人: | 冯欣伟;曹徐平;张一麟;李莹 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 通用 标签 挖掘 方法 装置 服务器 介质 | ||
本发明实施例公开了一种通用标签挖掘方法、装置、服务器及介质,所述方法包括:将包含标签占位符以及所述标签占位符的属性的标签种子规则与历史搜索信息进行匹配,确定匹配的标签;组合已有的标签种子规则和匹配得到的标签,以构建新的搜索序列集合;对所述新的搜索序列集合中包含的各搜索序列作泛化处理得到新的标签种子规则,并返回执行所述新的标签种子规则与历史搜索信息匹配操作确定新的标签,直至标签和标签种子规则满足收敛条件。本发明实施例提供的方法能够挖掘出更加全面、深刻的标签,并且整体标签挖掘的流程不依赖垂类网站,可以使用相同的流程对各种类型网页进行标签挖掘,大大降低了开发工作时间,满足了用户的具体化需求。
技术领域
本发明实施例涉及互联网技术,尤其涉及一种通用标签挖掘方法、装置、服务器及介质。
背景技术
随着互联网的发展,服务平台能够供用户查询想要的资源。目前,当用户使用搜索词查询资源时,通常通过搜索词中的标签确定与用户搜索词匹配的资源列表。
目前关于标签挖掘的方式有两种,一种是基于垂类网站的结构化抽取,大部分领域在互联网上存在一些优质的垂类网站,上面很可能已经建设了常规的标签属性,比如歌曲的曲风,电影的分类等等。另一种是基于实体的其他文本属性抽取,如从电影的摘要中依据句法结构,依存关系等特征建立抽取模型,抽取出标签。
但是基于垂类网站的结构化抽取标签不够通用,对于没有垂类站点的冷门领域,或者垂站上没有标签属性的情况则无法适用,并且通过垂类网站的结构中挖掘出的标签多为一些常规名词类标签,无法满足更加具体的问答需求。基于实体的其他文本属性抽取标签,由于实体的文本属性本身不够丰富,对于一些用户主观类标签无法挖掘。
发明内容
本发明实施例提供了一种通用标签挖掘方法、装置、服务器及介质,以实现使用相同的流程对各种类型网页进行标签挖掘,降低开发工作时间,满足用户的具体化需求。
第一方面,本发明实施例提供了一种通用标签挖掘方法,包括:
将包含标签占位符以及所述标签占位符的属性的标签种子规则与历史搜索信息进行匹配,确定匹配的标签;
组合已有的标签种子规则和匹配得到的标签,以构建新的搜索序列集合;
对所述新的搜索序列集合中包含的各搜索序列作泛化处理得到新的标签种子规则,并返回执行所述新的标签种子规则与历史搜索信息匹配操作确定新的标签,直至标签和标签种子规则满足收敛条件。
第二方面,本发明实施例还提供了一种通用标签挖掘装置,包括:
标签匹配模块,用于将包含标签占位符以及所述标签占位符的属性的标签种子规则与历史搜索信息进行匹配,确定匹配的标签;
序列构建模块,用于组合已有的标签种子规则和匹配得到的标签,以构建新的搜索序列集合;
标签更新模块,用于对所述新的搜索序列集合中包含的各搜索序列作泛化处理得到新的标签种子规则,并返回执行所述新的标签种子规则与历史搜索序列匹配操作确定新的标签,直至标签和标签种子规则满足收敛条件。
第三方面,本发明实施例还提供了一种服务器,所述服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任意实施例所提供的通用标签挖掘方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所提供的通用标签挖掘方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711294952.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种温度敏感控制器
- 下一篇:一种智能实验室调控系统