[发明专利]一种利用通话行为时域滤波实现不良语音分类的方法在审
| 申请号: | 201910311891.5 | 申请日: | 2019-04-18 |
| 公开(公告)号: | CN110072016A | 公开(公告)日: | 2019-07-30 |
| 发明(设计)人: | 陈晓莉;丁一帆;徐菁;林建洪;聂宜君 | 申请(专利权)人: | 浙江鹏信信息科技股份有限公司 |
| 主分类号: | H04M3/22 | 分类号: | H04M3/22;H04M3/436;H04W12/12;G06N3/08;G10L25/30;G10L25/51 |
| 代理公司: | 杭州千克知识产权代理有限公司 33246 | 代理人: | 周希良 |
| 地址: | 311100 浙江省杭州市余杭*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 时域滤波 神经网络 通话行为 语音分类 白名单号码 黑名单号码 输出 模型构建 模型判断 判断模块 特征统计 特征向量 特征转化 单数据 准确率 构建 快递 类标 约车 统计 覆盖率 推销 对话 分析 | ||
1.一种利用通话行为时域滤波实现不良语音分类的方法,其特征在于,包括训练模块及判断模块,所述训练模块包括如下步骤:
步骤A1、采集数据;
步骤A2、特征统计:训练模块即对明确确认的多个类型的正常号码和不良号码的N个特征进行统计,每小时统计一次,共24小时;
步骤A3、构建时域滤波:将每个号码的特征转化为24*N维特征向量,形成时域滤波;
步骤A4、模型构建:特征向量作为神经网络的输入,将号码的类标作为神经网络的输出,模拟多种类型的正常号码和不良号码的行为,完成模型构建;
步骤A5、模型预测:对现网的所有号码进行上述步骤A2~步骤A4的分析,通过模型判断号码是否为不良号码。
2.根据权利要求1所述的一种利用通话行为时域滤波实现不良语音分类的方法,其特征在于,所述步骤A1为对多种类的正常号码和不良号码的通话话单数据进行采集,作为建模的样本数据。
3.根据权利要求1所述的一种利用通话行为时域滤波实现不良语音分类的方法,其特征在于,所述步骤A2还包括,以小时为单位对主叫号码进行特征统计,包括:每小时是否发生过通话行为,每小时通话总次数,以及每小时接通率,每小时接通率=每小时通话时长大于0的次数/每小时总通话次数。
4.根据权利要求1所述的一种利用通话行为时域滤波实现不良语音分类的方法,其特征在于,所述步骤A3还包括,构建24小时特征统计时域滤波,通过统计话单将号码的24小时通话行为及时域滤波转化为神经网络的输入向量X,X为一个72维度的向量,1到24维对应号码在0-23点是否发生过通话行为,发生过记为1,没有发生过通话行为记为0;25到48维对应号码在0点到23点的24个时间段通话次数;49到72维对应该号码24小时时间段内每个小时的呼叫接通率,由于X向量内每个元素大小不一致,需要将X归一化为元素大小分布在(0,1)区间内的向量
5.根据权利要求4所述的一种利用通话行为时域滤波实现不良语音分类的方法,其特征在于,所述步骤A4还包括,利用步骤A3中神经网络拟合72个维度的特征到分类目标的映射来完成模型训练。
6.根据权利要求1所述的一种利用通话行为时域滤波实现不良语音分类的方法,其特征在于,所述步骤A5包括,判断模块即对现网的每一个号码进行上述同样的特征统计构建时域滤波;将号码的时域滤波输入到训练好的模型中,由模型判断每一个号码的类别,输出正常号码和不良号码。
7.根据权利要求5所述的一种利用通话行为时域滤波实现不良语音分类的方法,其特征在于,步骤A4中的模型构建还包括以下步骤:
步骤A41:确定模型的结构:该神经网络由一个输入层X,即72维向量,两个隐藏层H1,H2和一个输出层A组成,其中即输入层,是归一化后的72维向量,H1,H2分别由一个20维向量和10维向量组成,输出层A由一个2维向量组成,各层之间通过权重矩阵连接,的权重矩阵记为W0,即二维,维度20×72;H1→H2的权重矩阵记为W1,即二维,维度10×20;H2→A的权重矩阵记为W2即,二维,维度2×10;
步骤A42:前向传递网络计算:首先随机初始化各层权重矩阵,对W0,W1,W2中的元素随机赋以0~1之间的值如下:
已知输入层是一个72维的向量,H1层中20个元素的可以通过矩阵乘法计算得到:
依次类推输入向量通过神经网络最终转化为输出层A中的多维向量;
步骤A43:优化神经网络的权重参数调整神经网络,最终得到可以拟合训练数据的模型。
8.根据权利要求7所述的一种利用通话行为时域滤波实现不良语音分类的方法,其特征在于,步骤A43具体训练过程如下:
步骤A431:已知一条72维的训练样本的对应真实输出为向量A为[0,1,0,0,0],通过神经网络计算得到的预测值为[1,0,0,0,0];
步骤A432:计算预测值跟真实值间的误差为记为J;
步骤A433:通过计算J在各层矩阵中W的偏微分得到需要更新的权重迭代W,令W=W+η×Δw,其中η为学习速率用来控制W的更新的速率,速率过大容易使W震荡导致无法收敛到最优解;过小则会使收敛速度过慢,增大计算量;
步骤A434:通过代入不同的训练样本,不断重复过程步骤A431-A433,使得最终J的误差绝对值小于阈值时,训练结束,模型构建完成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江鹏信信息科技股份有限公司,未经浙江鹏信信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910311891.5/1.html,转载请声明来源钻瓜专利网。





