[发明专利]一种突发事件语料库的更新方法及装置有效
申请号: | 201610509717.8 | 申请日: | 2016-06-30 |
公开(公告)号: | CN106202293B | 公开(公告)日: | 2019-05-10 |
发明(设计)人: | 叶澄灿;陈英傑;胡军;王天畅 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 项京;马敬 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明实施例公开了一种突发事件语料库的更新方法及装置,包括,获得视频的标题;根据所述标题,生成所述标题对应的第一词向量;根据所述第一词向量以及预设更新规则对用于更新所述突发事件语料库的聚类中心进行更新;对更新后的所述聚类中心的词向量进行过滤;根据过滤后的词向量,对所述突发事件语料库进行更新。应用本发明实施例,提高了针对更新突发事件语料库的更新效率,使面向突发事件的搜索结果更为合理。 | ||
搜索关键词: | 一种 突发事件 语料库 更新 方法 装置 | ||
【主权项】:
1.一种突发事件语料库的更新方法,其特征在于,包括:获得视频的标题;根据所述标题,生成所述标题对应的第一词向量;根据所述第一词向量以及预设更新规则对用于更新所述突发事件语料库的聚类中心进行更新;对更新后的所述聚类中心的词向量进行过滤;根据过滤后的词向量,对所述突发事件语料库进行更新;所述根据所述第一词向量以及预设更新规则对用于更新所述突发事件语料库的聚类中心进行更新,包括:判断所述聚类中心中用于存储词向量的第一列表中是否存在与所述第一词向量相似的第二词向量;如果不存在,将所述第一词向量添加在所述第一列表中,并在所述聚类中心中用于存储类成员个数以及词向量中的分词的频率的第二列表中添加与所述第一词向量对应的第一记录;如果存在,更新所述第二词向量对应的所述第二列表中的第二记录;针对所述第一记录或所述第二记录,判断所述第一记录或所述第二记录中的每一个分词的频率与所述第一记录或所述第二记录中的类成员个数的商是否大于预设第一阈值;如果是,将所述分词确定为待处理分词;根据所述第一记录或所述第二记录中的所有待处理分词,生成目标词向量;判断所述第一列表中除所述第一词向量或所述第二词向量之外的词向量中是否存在与所述目标词向量相同的词向量或包含所述目标词向量的词向量;如果所述第一列表中除所述第一词向量或所述第二词向量之外的词向量中存在与所述目标词向量相同的词向量,将所述第一列表中的所述第一词向量或所述第二词向量删除,将所述第二列表中的与所述目标词向量相同的词向量对应的记录删除;并建立与所述目标词向量相同的词向量与所述第一记录或所述第二记录的对应关系;如果所述第一列表中除所述第一词向量或所述第二词向量之外的词向量中存在包含所述目标词向量的词向量;将所述第一列表中的所述第一词向量或所述第二词向量删除,将所述包含所述目标词向量的词向量删除;将所述第二列表中包含所述目标词向量的词向量对应的记录删除;将所述目标词向量添加在所述第一列表中,并建立所述目标词向量与所述第一记录或所述第二记录的对应关系;如果不存在或不包含,将所述第一列表中的所述第一词向量或所述第二词向量删除;将所述目标词向量添加在所述第一列表中,并建立所述目标词向量与所述第一记录或所述第二记录的对应关系。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610509717.8/,转载请声明来源钻瓜专利网。
- 上一篇:基于浏览器的广告展现方法及系统
- 下一篇:多媒体网络购物指引系统