[发明专利]一种基于人工智能自动屏蔽或提示软文广告的方法和系统在审
申请号: | 201811542709.9 | 申请日: | 2018-12-17 |
公开(公告)号: | CN109635115A | 公开(公告)日: | 2019-04-16 |
发明(设计)人: | 卞西晗;张连聘 | 申请(专利权)人: | 济南浪潮高新科技投资发展有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/951;G06N3/04 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 陈婷婷 |
地址: | 250100 山东省济南市*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 软文 自然语言分析 人工智能 自动屏蔽 广告 卷积神经网络 提示 网页 人工智能技术 数据采集模块 数据处理模块 数据分析模块 广告内容 明显位置 屏蔽软件 网络应用 文字内容 用户上网 正文文字 分类 屏蔽 上网 分辨 预测 维护 | ||
1.一种基于人工智能自动屏蔽或提示软文广告的方法,其特征在于该方法通过设置屏蔽软件,获取网页的正文文字内容,并将获取的文字内容通过自然语言分析卷积神经网络进行分类;
通过自然语言分析卷积神经网络分类预测为正文中含有广告内容的网页被定义为软文文章;
根据设置,被定义为软文文章的网页无法打开或打开时在明显位置标记为软文。
2.根据权利要求1所述的一种基于人工智能自动屏蔽或提示软文广告的方法,其特征在于该方法的具体实现步骤如下:
所述屏蔽软件在用户点击某个链接后,预先扫描网页内容,通过html标签获取网页正文内容,包括文字内容和图片内容;
将获取的网页主体内容中的文字部分存入待处理数据,网页中的图片部分则通过图片转换文字软件进行转换,图片转换的文字也存入待处理数据;
对待处理数据进行预处理,使其符合卷积神经网络输入要求,预处理后的数据作为输入数据输入卷积神经网络进行自然语言分析;
通过卷积神经网络进行的自然语言分析,判断该网页内容是否为软文广告;
若判定为软文广告,则根据设置对网页进行屏蔽或在加载网页时添加软文广告标识。
3.根据权利要求2所述的一种基于人工智能自动屏蔽或提示软文广告的方法,其特征在于所述数据预处理通过正则表达式的方式去除待处理数据中的不符合神经网络输入要求的数据,将数据扁平化,重新分布权值。
4.根据权利要求3所述的一种基于人工智能自动屏蔽或提示软文广告的方法,其特征在于所述不符合神经网络输入要求的数据包括数字、符号及英文。
5.根据权利要求3或4所述的一种基于人工智能自动屏蔽或提示软文广告的方法,其特征在于所述数据处理还包括分词和计算词频。
6.根据权利要求1或2所述的一种基于人工智能自动屏蔽或提示软文广告的方法,其特征在于设置广告成分阈值,通过卷积神经网络进行的自然语言分析得出该段数据中广告成分的占比,当该比例超过所述阈值,则判定该网页内容为软文广告。
7.一种基于人工智能自动屏蔽或提示软文广告的系统,其特征在于包括数据采集模块、数据分析模块、数据处理模块和自然语言分析模块,
数据采集模块用于获取网页正文内容,包括文字内容和图片内容;
数据分析模块用于分析数据采集模块采集的网页内容,将文字内容直接发送至数据处理模块;图片内容转换成文字后发送至数据处理模块;
数据处理模块用于去除待处理数据中的不符合自然语言分析模块的元素,将数据扁平化、重新分布权值;
自然语言分析模块通过卷积神经网络得出数据中广告成分占比,将该占比与阈值比较,当该广告成分占比超过阈值时,判定该网页内容为软文广告并进行处理。
8.根据权利要求7所述的一种基于人工智能自动屏蔽或提示软文广告的系统,其特征在于所述数据处理模块采用正则表达式的方式去除待处理数据中的数字、符号及英文。
9.根据权利要求7或8所述的一种基于人工智能自动屏蔽或提示软文广告的系统,其特征在于所述数据处理模块的数据处理还包括分词和计算词频。
10.根据权利要求7所述的一种基于人工智能自动屏蔽或提示软文广告的系统,其特征在于该系统还包括用户自定义模块,用于设置被判定为软文广告的网页,屏蔽该网页或在页面上添加醒目的标识,对软文广告本质进行说明和提醒。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于济南浪潮高新科技投资发展有限公司,未经济南浪潮高新科技投资发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811542709.9/1.html,转载请声明来源钻瓜专利网。