[发明专利]短信垃圾新词识别方法、装置及电子设备有效
申请号: | 201811076259.9 | 申请日: | 2018-09-14 |
公开(公告)号: | CN110909540B | 公开(公告)日: | 2022-05-24 |
发明(设计)人: | 高喆;康杨杨;周笑添;孙常龙;刘晓钟;司罗 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F16/332 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 短信 垃圾 新词 识别 方法 装置 电子设备 | ||
1.一种垃圾短信新词识别方法,其特征在于,包括:
获取短信集合;所述短信集合包括多个垃圾短信和多个正常短信;
确定所述多个垃圾短信对应的候选词集合;
根据所述短信的短信类别信息,确定所述候选词的短信类别倾向性相关指标;以及,获取所述候选词的文档稀有性相关指标;其中,所述短信类别倾向性相关指标是指能够反映所述候选词的短信类别倾向性的指标,所述短信类别倾向性包括正常短信倾向性或者垃圾短信倾向性;所述文档稀有性相关指标包括倒文档频率IDF;
根据所述短信类别倾向性相关指标和所述文档稀有性相关指标,确定所述候选词的垃圾短信新词得分;
获取所述垃圾短信新词得分大于得分阈值的候选词的成词概率;
根据所述成词概率,获取候选的垃圾短信新词;
确定至少一个预设垃圾短信词汇分别与所述候选的垃圾短信新词之间的语义相似度;
根据所述语义相似度,从所述候选的垃圾短信新词中确定垃圾短信新词。
2.根据权利要求1所述的方法,其特征在于,所述确定所述多个垃圾短信对应的候选词集合,包括:
通过分词算法,获取所述垃圾短信包括的词,作为短信词;
若至少两个相邻短信词构成的组合词符合候选词规则,则将所述组合词作为所述候选词。
3.根据权利要求2所述的方法,其特征在于,所述候选词规则包括候选词的字数小于预设字数。
4.根据权利要求1所述的方法,其特征在于,
所述短信类别倾向性相关指标包括以下指标的至少一项:交叉熵,优势率,互信息。
5.根据权利要求1所述的方法,其特征在于,所述根据所述短信类别倾向性相关指标和所述文档稀有性相关指标,确定所述候选词的垃圾短信新词得分,包括:
将所述短信类别倾向性相关指标和所述文档稀有性相关指标的加权平均值作为所述垃圾短信新词得分。
6.根据权利要求1所述的方法,其特征在于,所述根据所述成词概率,获取候选的垃圾短信新词,包括:
将所述成词概率大于成词概率阈值的候选词作为所述候选的垃圾短信新词。
7.根据权利要求1所述的方法,其特征在于,所述获取所述垃圾短信新词得分大于得分阈值的候选词的成词概率,包括:
确定所述候选词的内部凝聚度;以及,确定所述候选词的外部自由度;
根据所述内部凝聚度和所述外部自由度,获取所述候选词的成词概率。
8.根据权利要求7所述的方法,其特征在于,所述根据所述内部凝聚度和所述外部自由度,获取所述候选词的成词概率,包括:
将所述内部凝聚度和所述外部自由度的平均值作为所述成词概率。
9.根据权利要求1所述的方法,其特征在于,所述根据所述语义相似度,从所述候选的垃圾短信新词中确定垃圾短信新词,包括:
根据所述语义相似度,确定所述候选的垃圾短信新词的垃圾短信词汇相似度;
根据所述垃圾短信词汇相似度,从所述候选的垃圾短信新词中确定所述垃圾短信新词。
10.根据权利要求9所述的方法,其特征在于,所述根据所述垃圾短信词汇相似度,从所述候选的垃圾短信新词中确定所述垃圾短信新词,包括:
将所述垃圾短信词汇相似度大于第一相似度阈值或小于第二相似度阈值的所述候选的垃圾短信新词作为垃圾短信新词。
11.根据权利要求9所述的方法,其特征在于,所述根据所述垃圾短信词汇相似度,从所述候选的垃圾短信新词中确定所述垃圾短信新词,包括:
获取并展示所述垃圾短信词汇相似度大于第一相似度阈值或小于第二相似度阈值的所述候选的垃圾短信新词;
接收针对目标候选新词的确定指令;
将所述目标候选新词为所述垃圾短信新词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811076259.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于缝料厚薄检测的控制方法
- 下一篇:可抑制VFTO的隔离开关及其动触头