[发明专利]一种生成标签的方法和装置有效
申请号: | 201811026691.7 | 申请日: | 2018-09-04 |
公开(公告)号: | CN109145261B | 公开(公告)日: | 2022-12-06 |
发明(设计)人: | 王亮 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | G06F40/117 | 分类号: | G06F40/117;G06F40/284 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 丁芸;项京 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 生成 标签 方法 装置 | ||
本发明实施例提供了一种生成标签的方法和装置,所述方法包括:从预设题目中抽取关键词,将抽取到的关键词作为初选关键词;基于初选关键词,从预设的关键词与联想标签的映射对集合中查找所述预设题目对应的联想标签,其中,联想标签是指标识所述预设题目所体现的核心内容且未在所述预设题目中出现的词;在所述初选关键词和所述联想标签中,确定所述预设题目的标签。应用本发明实施例能够使生成的标签可以包括未在预设题目中出现的词,保证生成的标签能够标识预设题目所体现的核心内容。
技术领域
本发明涉及生成标签的技术领域,特别是涉及一种生成标签的方法和装置。
背景技术
为了提高个性化推荐的准确性,可以将新闻、评论文章等消息标注上标签,将与用户的画像信息相匹配的标签对应的消息,作为个性化信息推送给用户。具体的,标签是根据新闻、评论文章等消息的题目生成的,标签可以标识消息的内容。
目前,生成标签的方法为:
首先,使用预设的分词方法,从消息的题目中抽取关键词,作为初选关键词,其中,预设的分词方法可以为N元模型过滤规则、字典匹配规则、抽取中心词等。
然后,按照预设的选取规则,从初选关键词中选取重点关键词,将选取出的重点关键词作为该消息的题目的标签,其中,预设的选取规则包括预设的关键词分类方法或预设的关键词排序方法。
比如,消息的题目为“小车深夜自燃,消防员紧急扑救”,首先,生成的初选关键词为“小车”、“深夜”、“自燃”、“消防员”、“紧急”和“扑救”,然后,选取的重点关键词为“自燃”和“扑救”,那么,最终生成的标签即为“自燃”、“扑救”。
但是,使用上述生成标签的方法生成的标签,只能是将出现在消息的题目中的词作为标签,而不是将未出现在消息的题目中的词作为标签。比如,在上述例子中,相比生成的标签“自燃”和“扑救”,“火灾”和“救援”更能标识消息的核心内容,但由于“火灾”和“救援”未出现在消息的题目中,因此无法将“火灾”和“救援”作为标签。这样,使用上述生成标签的方法生成的标签,由于无法包括未在消息的题目中出现的词,可能导致生成的标签无法准确标识消息的题目所体现的核心内容,也即消息的核心内容,从而造成推送给用户的个性化信息,可能并不符合用户的兴趣。
发明内容
本发明实施例的目的在于提供一种生成标签的方法和装置,以使生成的标签可以包括未在预设题目中出现的词,保证生成的标签能够标识预设题目所体现的核心内容。具体技术方案如下:
第一方面,本发明实施提供了一种生成标签的方法,所述方法包括:
从预设题目中抽取关键词,将抽取到的关键词作为初选关键词;
基于初选关键词,从预设的关键词与联想标签的映射对集合中查找所述预设题目对应的联想标签,其中,联想标签是指标识所述预设题目所体现的核心内容且未在所述预设题目中出现的词;
在所述初选关键词和所述联想标签中,确定所述预设题目的标签。
进一步的,所述基于初选关键词,从预设的关键词与联想标签的映射对集合中查找所述预设题目对应的联想标签的步骤,包括:
从预设的关键词与联想标签的映射对集合中,查找初选关键词对应的联想标签,将初选关键词对应的联想标签作为所述预设题目对应的联想标签;
所述在所述初选关键词和所述联想标签中,确定所述预设题目的标签的步骤,包括:
按照预设的选取规则,在所述初选关键词和所述联想标签中,确定所述预设题目的标签。
进一步的,所述基于初选关键词,从预设的关键词与联想标签的映射对集合中查找所述预设题目对应的联想标签的步骤,包括:
按照预设的选取规则,从所述初选关键词中选取重点关键词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811026691.7/2.html,转载请声明来源钻瓜专利网。