[发明专利]基于自设敏感词的网页敏感文本处理方法及系统在审
申请号: | 202010846399.0 | 申请日: | 2020-08-21 |
公开(公告)号: | CN111966906A | 公开(公告)日: | 2020-11-20 |
发明(设计)人: | 徐昌梅;杨盘云 | 申请(专利权)人: | 绍兴市寅川软件开发有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/335 |
代理公司: | 绍兴市寅越专利代理事务所(普通合伙) 33285 | 代理人: | 胡国平 |
地址: | 312000 浙江省绍兴市柯*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 敏感 网页 文本 处理 方法 系统 | ||
本发明涉及一种基于自设敏感词的网页敏感文本处理方法及系统,接收到用户终端发送的敏感词设置请求,获取用户的ID;根据用户的ID获取用户历史操作数据,根据用户历史操作数据为用户推荐敏感词,将推荐的敏感词发送至所述用户终端;接收用户终端选择的敏感词,设定为用户自设敏感词;接收到所述用户终端的网页获取请求时,对获取的网页采用所述用户自设敏感词和默认敏感词进行处理,将所述网页中的敏感词去除或采用预设符号代替;将处理后的网页发送至所述用户终端。通过采用本发明,用户可以自由设定自己所需要屏蔽的敏感词,支持用户自设敏感词和默认敏感词的双重处理屏蔽,并且用户在设定敏感词时,可以智能推荐敏感词,提升了用户使用体验。
技术领域
本发明涉及互联网技术领域,具体是指一种基于自设敏感词的网页敏感文本处理方法及系统。
背景技术
随着互联网技术的快速发展,人们能够从网络中获取到的信息越来越多。然而随着信息的爆炸式增长,信息的质量也难以得到保证。用户在浏览网页时,可能会接触到一些不良信息。现有技术中出现了一些敏感词屏蔽的技术手段,对网页中一些预设的敏感词进行删除或替换,呈现给用户以更干净的网络环境。
然而,现有技术中仅支持默认敏感词的屏蔽。此外,不同用户可能也会有不同的屏蔽需求,现有技术中难以做到根据每个用户的需求进行更智能化、更有针对性的网页敏感文本处理。
发明内容
为了解决现有技术中的问题,本发明提供了一种基于自设敏感词的网页敏感文本处理方法,支持用户自设敏感词和默认敏感词的双重处理屏蔽,提升用户使用体验。
为了实现上述目的,本发明具有如下构成:
本发明提供了一种基于自设敏感词的网页敏感文本处理方法,包括如下步骤:
接收到用户终端发送的敏感词设置请求,获取用户的ID;
根据用户的ID获取用户历史操作数据,根据用户历史操作数据为用户推荐敏感词,将推荐的敏感词发送至所述用户终端;
接收所述用户终端选择的敏感词,设定为用户自设敏感词;
接收到所述用户终端的网页获取请求时,对获取的网页采用所述用户自设敏感词和默认敏感词进行处理,将所述网页中的敏感词去除或采用预设符号代替;
将处理后的网页发送至所述用户终端。
可选地,所述对获取的网页采用所述用户自设敏感词和默认敏感词进行处理,包括如下步骤:
对所有网页采用所述默认敏感词进行处理;
根据用户的ID获取用户自设敏感词;
对所述用户终端请求获取的网页采用所述用户自设敏感词进行处理。
可选地,所述默认敏感词包括全局默认敏感词和各个用户类别的类别默认敏感词;
所述对所有网页采用所述默认敏感词进行处理,包括如下步骤:
对所有网站采用所述全局默认敏感词进行处理;
根据用户的ID获取用户特征数据,将所述用户特征数据输入训练好的用户分类模型,得到用户的类别;
查找所述用户的类别所对应的类别默认敏感词;
对所述用户终端请求获取的网页采用所述类别默认敏感词进行处理。
可选地,所述基于自设敏感词的网页敏感文本处理方法还包括采用如下步骤设定各个用户类别所对应的类别默认敏感词:
获取所述用户类别所对应的多个用户的用户自设敏感词;
统计所述多个用户的用户自设敏感词中每个敏感词的出现次数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于绍兴市寅川软件开发有限公司,未经绍兴市寅川软件开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010846399.0/2.html,转载请声明来源钻瓜专利网。