[发明专利]一种利用通话行为时域滤波实现不良语音分类的方法在审
申请号: | 201910311891.5 | 申请日: | 2019-04-18 |
公开(公告)号: | CN110072016A | 公开(公告)日: | 2019-07-30 |
发明(设计)人: | 陈晓莉;丁一帆;徐菁;林建洪;聂宜君 | 申请(专利权)人: | 浙江鹏信信息科技股份有限公司 |
主分类号: | H04M3/22 | 分类号: | H04M3/22;H04M3/436;H04W12/12;G06N3/08;G10L25/30;G10L25/51 |
代理公司: | 杭州千克知识产权代理有限公司 33246 | 代理人: | 周希良 |
地址: | 311100 浙江省杭州市余杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 时域滤波 神经网络 通话行为 语音分类 白名单号码 黑名单号码 输出 模型构建 模型判断 判断模块 特征统计 特征向量 特征转化 单数据 准确率 构建 快递 类标 约车 统计 覆盖率 推销 对话 分析 | ||
本发明公开了一种利用通话行为时域滤波实现不良语音分类的方法。本发明包对明确确认的多个类型的正常号码和不良号码的N个特征进行统计,每小时统计一次;将每个号码的特征转化为24*N维特征向量,形成时域滤波;将特征向量作为神经网络的输入,将号码的类标作为神经网络的输出,模拟多种类型的正常号码和不良号码的行为,完成模型构建;判断模块即对现网的每一个号码进行上述同样的特征统计构建时域滤波;将号码的时域滤波输入到训练好的模型中,由模型判断每一个号码的类别,输出正常号码和不良号码。本发明对话单数据进行分析,识别出骚扰、诈骗、推销等黑名单号码以及网约车、快递、外卖等白名单号码,准确率大于98%,覆盖率大于91%。
技术领域
本发明涉及通信安全领域,尤其涉及一种利用通话行为时域滤波实现不良语音分类的方法。
背景技术
移动互联网的快速发展给人民群众带来了巨大的便利,移动通信拓展了彼此沟通的时空范围,但也带来较为严重的通讯信息隐私信息泄露等问题,利用移动通信宣传和传播进行骚扰,影响了民众的日常生活。不良语音给移动客户带来了巨大的困扰,应当通过有效的分析方法及时发现并处置。
本发明的目的在于通过对号码24小时全时域行为的分析,构建时域滤波,并利用神经网络模拟不良号码与多种类型的正常号码(网约车号码、快递号码、外卖号码等)的行为,进而准确分析出不良号码,大幅提升号码准确率及覆盖率。
发明内容
本发明的目的是针对现有技术的缺陷,提供了一种在海量数据下利用通话行为时域滤波实现不良语音精准分类的方法,能对不良语音和正常号码进行精准识别与分类。
为了实现以上目的,本发明采用以下技术方案:
一种利用通话行为时域滤波实现不良语音分类的方法,包括训练模块及判断模块,所述训练模块包括如下步骤:
步骤A1、采集数据;
步骤A2、特征统计:训练模块即对明确确认的多个类型的正常号码和不良号码的N个特征进行统计,每小时统计一次,共24小时。正常号码是指网约车号码、快递号码、外卖号码等正常通信使用的号码,不良号码指诈骗、广告推销等骚扰号码。
步骤A3、构建时域滤波:将每个号码的特征转化为24*N维特征向量,形成时域滤波;
步骤A4、模型构建:特征向量作为神经网络的输入,将号码的类标 (类标为由0或1数值构成的5维向量,5个维度代表的含义为:是否为网约车号码,是否为快递号码,是否为外卖号码,是否为不良号码,其他号码,若是则向量对应位置标记为1,若否则标记为0。如网约车号码的类标为[1,0,0,0,0],不良号码的类标为[0,0,0,1,0]) 作为神经网络的输出,模拟多种类型的正常号码和不良号码的行为,完成模型构建;
步骤A5、模型预测:对现网的所有号码进行上述步骤A2~步骤A4的分析,通过模型判断号码是否为不良号码。
进一步的,所述步骤A1为对多种类的正常号码和不良号码的通话话单数据进行采集,作为建模的样本数据。
进一步的,所述步骤A2还包括,以小时为单位对主叫号码进行特征统计,包括:每小时是否发生过通话行为,每小时通话总次数,以及每小时接通率,每小时接通率=每小时通话时长大于0的次数/ 每小时总通话次数。
进一步的,所述步骤A3还包括,构建24小时特征统计时域滤波,通过统计话单将号码的24小时通话行为及时域滤波转化为神经网络的输入向量X,X为一个72维度的向量,1到24维对应号码在0-23 点是否发生过通话行为,发生过记为1,没有发生过通话行为记为0;25到48维对应号码在0点到23点的24个时间段通话次数;49到 72维对应该号码24小时时间段内每个小时的呼叫接通率,由于X向量内每个元素大小不一致,需要将X归一化为元素大小分布在(0,1) 区间内的向量
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江鹏信信息科技股份有限公司,未经浙江鹏信信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910311891.5/2.html,转载请声明来源钻瓜专利网。