[发明专利]通用标签挖掘方法、装置、服务器及介质有效

申请号：	201711294952.9	申请日：	2017-12-08
公开（公告）号：	CN107992585B	公开（公告）日：	2020-09-18
发明（设计）人：	冯欣伟;曹徐平;张一麟;李莹	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G06F16/2458	分类号：	G06F16/2458
代理公司：	北京品源专利代理有限公司 11332	代理人：	孟金喆
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	通用标签挖掘方法装置服务器介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例公开了一种通用标签挖掘方法、装置、服务器及介质，所述方法包括：将包含标签占位符以及所述标签占位符的属性的标签种子规则与历史搜索信息进行匹配，确定匹配的标签；组合已有的标签种子规则和匹配得到的标签，以构建新的搜索序列集合；对所述新的搜索序列集合中包含的各搜索序列作泛化处理得到新的标签种子规则，并返回执行所述新的标签种子规则与历史搜索信息匹配操作确定新的标签，直至标签和标签种子规则满足收敛条件。本发明实施例提供的方法能够挖掘出更加全面、深刻的标签，并且整体标签挖掘的流程不依赖垂类网站，可以使用相同的流程对各种类型网页进行标签挖掘，大大降低了开发工作时间，满足了用户的具体化需求。

技术领域

本发明实施例涉及互联网技术，尤其涉及一种通用标签挖掘方法、装置、服务器及介质。

背景技术

随着互联网的发展，服务平台能够供用户查询想要的资源。目前，当用户使用搜索词查询资源时，通常通过搜索词中的标签确定与用户搜索词匹配的资源列表。

目前关于标签挖掘的方式有两种，一种是基于垂类网站的结构化抽取，大部分领域在互联网上存在一些优质的垂类网站，上面很可能已经建设了常规的标签属性，比如歌曲的曲风，电影的分类等等。另一种是基于实体的其他文本属性抽取，如从电影的摘要中依据句法结构，依存关系等特征建立抽取模型，抽取出标签。

但是基于垂类网站的结构化抽取标签不够通用，对于没有垂类站点的冷门领域，或者垂站上没有标签属性的情况则无法适用，并且通过垂类网站的结构中挖掘出的标签多为一些常规名词类标签，无法满足更加具体的问答需求。基于实体的其他文本属性抽取标签，由于实体的文本属性本身不够丰富，对于一些用户主观类标签无法挖掘。

发明内容

本发明实施例提供了一种通用标签挖掘方法、装置、服务器及介质，以实现使用相同的流程对各种类型网页进行标签挖掘，降低开发工作时间，满足用户的具体化需求。

第一方面，本发明实施例提供了一种通用标签挖掘方法，包括：

将包含标签占位符以及所述标签占位符的属性的标签种子规则与历史搜索信息进行匹配，确定匹配的标签；

组合已有的标签种子规则和匹配得到的标签，以构建新的搜索序列集合；

对所述新的搜索序列集合中包含的各搜索序列作泛化处理得到新的标签种子规则，并返回执行所述新的标签种子规则与历史搜索信息匹配操作确定新的标签，直至标签和标签种子规则满足收敛条件。