[发明专利]一种电子文件的智能派发方法及装置有效
申请号: | 201810901835.2 | 申请日: | 2018-08-09 |
公开(公告)号: | CN109189883B | 公开(公告)日: | 2022-01-28 |
发明(设计)人: | 张帆;霍雨佳;林雪南;韩春阳 | 申请(专利权)人: | 中国银行股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06Q10/06 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 王涛;刘淼 |
地址: | 100818 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 电子 文件 智能 派发 方法 装置 | ||
1.一种电子文件的智能派发方法,其特征在于,包括:
获得各历史电子文件内容作为机器学习样本;
对每一历史电子文件内容通过自然语言处理分词方法进行分词处理,获得词汇集合;
从所述词汇集合中确定高频词汇作为机器学习特征;
对每一历史电子文件内容使用信息检索加权算法,计算该历史电子文件内容在各机器学习特征上的信息检索加权数值;
根据各历史电子文件的接收方信息确定电子文件类型;
根据各机器学习特征、各电子文件类型和各信息检索加权数值形成学习矩阵;
根据所述学习矩阵,采用机器学习算法进行拟合训练,生成派发模型;
获得待处理电子文件,并经过所述派发模型进行派发处理;
其中,所述根据所述学习矩阵,采用机器学习算法进行拟合训练,生成派发模型,包括:
将所述学习矩阵中的历史电子文件内容划分为两部分,分别形成训练集和验证集;
将所述学习矩阵中的训练集的每个历史电子文件内容对应的信息检索加权数值作为输入,相对应的电子文件类型作为输出,采用各种机器学习算法进行拟合训练,形成多个候选派发模型;所述各种机器学习算法包括朴素贝叶斯算法、支持向量机算法、逻辑回归算法、决策树算法、随机森林算法和梯度提升决策树算法;
将所述学习矩阵中的验证集的每个历史电子文件内容对应的信息检索加权数值作为输入,获得各候选派发模型的输出结果,并根据所述输出结果和相对应的电子文件类型进行比较,确定各候选派发模型的准确率;
将准确率大于预先设置的准确率阈值的多个候选派发模型作为派发模型;
所述获得待处理电子文件,并经过所述派发模型进行派发处理,包括:
获得待处理电子文件;
对待处理电子文件通过自然语言处理分词方法进行分词处理,并确定待处理电子文件在各机器学习特征上的信息检索加权数值;
将所述待处理电子文件对应的信息检索加权数值输入到各派发模型中,得到每个派发模型对应的电子文件类型;
通过德尔菲法从每个派发模型对应的电子文件类型中确定最佳预测结果;
根据所述最佳预测结果确定待处理电子文件的接收方信息,并向所述接收方发送该待处理电子文件。
2.根据权利要求1所述的电子文件的智能派发方法,其特征在于,所述获得各历史电子文件内容作为机器学习样本,包括:
从预先设置的电子文件系统中获得各历史电子文件内容;
将各历史文件内容导入到预设格式的数据库中,以作为机器学习样本;所述预设格式的数据库中包含数据表,所述数据表包括电子文件内容对应的数据项和数据类型。
3.根据权利要求1所述的电子文件的智能派发方法,其特征在于,所述对每一历史电子文件内容通过自然语言处理分词方法进行分词处理,获得词汇集合,包括:
获取预先设置的电子文件所属领域的专有词典和停用词典;
根据所述专有词典和停用词典,采用自然语言处理分词方法对每一历史电子文件内容进行分词处理,获得词汇集合。
4.根据权利要求1所述的电子文件的智能派发方法,其特征在于,所述从所述词汇集合中确定高频词汇作为机器学习特征,包括:
从所述词汇集合中获得全部历史电子文件内容进行分词后的全部词汇和各词汇出现次数;
根据各词汇出现次数和预先设置的出现频率阈值,将大于所述预先设置的出现频率阈值的词汇确定为高频词汇,以作为机器学习特征。
5.根据权利要求1所述的电子文件的智能派发方法,其特征在于,所述根据各历史电子文件的接收方信息确定电子文件类型,包括:
在历史电子文件为历史电子邮件时,根据历史电子邮件的收件人标记该历史电子邮件的类型;
在历史电子文件为历史工作单据时,根据历史工作单据的接收方标记该历史工作单据的类型;所述历史工作单据包括历史客户服务单。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国银行股份有限公司,未经中国银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810901835.2/1.html,转载请声明来源钻瓜专利网。