[发明专利]广告文本识别方法和装置在审
申请号: | 201710966609.8 | 申请日: | 2017-10-17 |
公开(公告)号: | CN107729489A | 公开(公告)日: | 2018-02-23 |
发明(设计)人: | 李树海 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/22 |
代理公司: | 中原信达知识产权代理有限责任公司11219 | 代理人: | 张一军,陆锦华 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 广告 文本 识别 方法 装置 | ||
技术领域
本发明涉及计算机技术领域,尤其涉及一种广告文本识别方法和装置。
背景技术
社交媒体是基于关系的信息分享、传播以及获取平台。用户可以通过Web或移动端应用发布文本和多媒体信息,并实现即时分享。由于社交媒体发展迅猛,文本数据已经形成了大规模积累,然而随着各种网络传播载体的迅速发展,网络空间内也出现了大量的垃圾文本,尤其是广告。这些广告文本对各类文本的分析工作造成了极大地干扰,导致了分析效率低,分析难度增大,且分析结果无法反映数据的真实情况;此外,对于普通用户而言,用户需要从大量的广告文本中筛选出有实际意义的文本,降低了用户的体验。因此,对网络空间内的广告文本进行过滤具有十分重要的意义。
目前,现有的过滤广告文本的方法主要有以下两种:
1、采用人工指定敏感词、广告词的方法,进而过滤掉包含这些敏感词、广告词的文本。
2、采用有监督学习的分类方法,事先人工标注大量广告文本与非广告文本,再通过机器学习的分类方法,例如SVM(Support Vector Machine,支持向量机)算法、神经网络算法等,训练出分类模型,利用该分类模型预测文本是否为广告。
在实现本发明的过程中,发明人发现现有技术中至少存在如下问题:
1、由人工参与的方法,效率低下,成本高,在大数据时代每天都产生几百几千甚至上万条文本,人工处理方式已无法满足需求。
2、人工指定敏感词、广告词的方法需要工作人员具有极强的广告领域背景知识,而且无法保证敏感词与广告词的全面覆盖,导致通过该方法检测的广告文本召回率很低。
3、有监督学习的分类方法需要人工获取或标注大量的训练集,从其他数据源获取的公开训练集通常与当前需要分类的文本特征差异较大,无法保证广告过滤效果。
发明内容
有鉴于此,本发明实施例提供一种广告文本识别方法,采用无监督的方法自动识别广告文本,不需要人工参与,降低了成本,提高了识别效率,从而能够快速地在海量文本中识别广告文本;该方法根据文本之间的相似度对文本进行聚类以形成至少一个文本类别,根据所述至少一个文本类别识别广告文本,提高了识别结果的准确性。
为实现上述目的,根据本发明实施例的一个方面,提供了一种广告文本识别方法。
本发明实施例的广告文本识别方法,包括:获取待识别的文本;根据文本之间的关联关系,对所述待识别的文本进行聚类以形成至少一个文本类别;根据所述至少一个文本类别,识别所述待识别的文本中的广告文本。
可选地,根据所述至少一个文本类别,识别所述待识别的文本中的广告文本包括:确定每个文本类别中的文本数量;若当前文本类别中的文本数量大于数量阈值,则确定所述当前文本类别内的文本为广告文本。
可选地,所述文本之间的关联关系包括文本之间的相似度;
根据文本之间的关联关系,对所述待识别的文本进行聚类以形成至少一个文本类别包括:随机从所述待识别的文本中选取一个文本形成第一文本类别;确定当前文本与所述第一文本类别中每个文本的最长公共子序列;根据所述最长公共子序列,确定所述当前文本与所述第一文本类别中每个文本的相似度;当所述相似度中最大的相似度大于或等于相似度阈值时,将所述当前文本归类至所述第一文本类别;当所述相似度中最大的相似度小于相似度阈值时,创建第二文本类别并将所述当前文本归类至所述第二文本类别。
可选地,根据文本之间的关联关系,对所述待识别的文本进行聚类以形成至少一个文本类别包括:获取每个文本的文本发布者,将具有相同的文本发布者的文本进行聚类以形成至少一个文本集,每个所述文本集对应一个文本发布者。
可选地,根据所述至少一个文本类别,识别所述待识别的文本中的广告文本包括:针对每个文本发布者对应的文本集:根据所述文本集中文本之间的相似度,确定所述文本集对应的文本发布者的文本重复度;若所述文本重复度大于重复度阈值,则确定所述文本集中的文本为广告文本;和/或,获取所述文本集对应的文本发布者的关注数和粉丝数,基于所述关注数和粉丝数,确定所述文本集对应的文本发布者的关注数占比;若所述关注数占比大于占比阈值,则确定所述文本集中的文本为广告文本。
为实现上述目的,根据本发明实施例的一个方面,提供了一种广告文本识别装置。
本发明实施例的广告文本识别装置,包括:文本获取模块,用于获取待识别的文本;文本聚类模块,用于根据文本之间的关联关系,对所述待识别的文本进行聚类以形成至少一个文本类别;广告识别模块,用于根据所述至少一个文本类别,识别所述待识别的文本中的广告文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710966609.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种移动基站查寻导航系统
- 下一篇:一种数据采集存储智能测试终端及方法