[发明专利]内容投放系统中的特征词处理方法、装置及存储介质在审
| 申请号: | 201710933750.8 | 申请日: | 2017-10-10 |
| 公开(公告)号: | CN110020120A | 公开(公告)日: | 2019-07-16 |
| 发明(设计)人: | 于明刚;赵铭;温旭;范欣;张智敏 | 申请(专利权)人: | 腾讯科技(北京)有限公司 |
| 主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/30;G06F17/27 |
| 代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 郭曼;王琦 |
| 地址: | 100080 北京市海淀区海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 特征词 样本特征 特征数据 预定属性 属性信息 媒体内容数据 训练样本数据 存储介质 概率估计 内容投放 概率 申请 投放 | ||
本申请公开了一种内容投放系统中的特征词处理方法,包括:获取训练样本数据,所述训练样本数据包括多个样本特征词中各样本特征词的特征数据及属性信息,所述属性信息用以指示对应样本特征词是否为预定属性特征词;根据所述多个样本特征词中各样本特征词的特征数据及属性信息,训练得到概率估计模型;获取已投放的媒体内容数据,确定所述媒体内容数据中的多个待识别特征词以及各特征词对应的特征数据;针对任一特征词,将该特征词的特征数据输入所述概率估计模型,获得该特征词作为所述预定属性特征词的概率;及根据各特征词作为所述预定属性特征词的概率,从所述多个待识别特征词中确定出预定属性特征词。本申请还提供了相应的装置及存储介质。
技术领域
本申请涉及互联网信息处理技术领域,尤其涉及一种内容投放系统中的特征词处理方法、装置及存储介质。
背景技术
随着互联网技术的发展,人们在互联网上进行的活动越来越多,不仅是简单的浏览网页,还可以在互联网上进行即时通讯、购物、广告宣传和网络游戏等。随着互联网技术的普及,个性化推荐系统已经广泛的应用于在线电子商务平台。所谓个性化推荐即根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品,从而可节省用户搜索信息或商品的时间。
在个性化推荐中,需要根据媒体内容的关键词及用户的兴趣标签确定媒体内容是否是用户感兴趣的媒体内容。在确定媒体内容的关键词时,需要对媒体内容的文本内容进行准确分词以获取该媒体内容的关键词。在中文处理领域,由于汉语本身的特点,词语之间没有像英文中有空格自然隔开,因此中文分词是一项重要的基础技术。但是,随着信息时代互联网的飞速发展,语言在网络平台上也被不断更新,从而造就了大量的新词。新词的出现,使得分词结果中出现过多的单字或细粒度词,影响了分词的准确率,进而影响了提取媒体内容关键词的准确性,因此,新词的准确识别受到越来越多的关注。
发明内容
本申请实例提供了一种内容投放系统中的特征词处理方法,包括:
获取已投放的媒体内容数据,确定所述媒体内容数据中的多个待识别特征词以及各特征词对应的特征数据;
针对任一特征词,将该特征词的特征数据输入预先训练的概率估计模型,接收所述概率估计模型输出的该特征词作为所述预定属性特征词的概率,所述概率估计模型由训练样本数据包括的多个样本特征词中各样本特征词的特征数据及属性信息训练得到,其中,所述属性信息用以指示对应样本特征词是否为预定属性特征词;及
根据接收到的各特征词作为所述预定属性特征词的概率,从所述多个待识别特征词中确定出预定属性特征词。
本申请实例还提供了一种内容投放系统中的特征词处理装置,包括:
待识别特征词获取单元,用以获取已投放的媒体内容数据,确定所述媒体内容数据中的多个待识别特征词以及各特征词对应的特征数据;
识别单元,用以针对任一特征词,将该特征词的特征数据输入预先训练的概率估计模型,接收所述概率估计模型输出的该特征词作为所述预定属性特征词的概率,所述概率估计模型由训练样本数据包括的多个样本特征词中各样本特征词的特征数据及属性信息训练得到,其中,所述属性信息用以指示对应样本特征词是否为预定属性特征词;及
根据接收到的各特征词作为所述预定属性特征词的概率,从所述多个待识别特征词中确定出预定属性特征词。
本申请实例还提供了一种计算机可读存储介质,存储有计算机可读指令,可以使至少一个处理器执行如上述所述的方法。
采用本申请提供的上述方案,确定的预定属性的特征词更加准确。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(北京)有限公司,未经腾讯科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710933750.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:信息显示方法、系统及终端
- 下一篇:基于迁移学习的软件众包项目推荐方法及系统





