[发明专利]词条分类方法及审计信息抽取方法有效
申请号: | 201811453423.3 | 申请日: | 2018-11-30 |
公开(公告)号: | CN109635289B | 公开(公告)日: | 2023-07-07 |
发明(设计)人: | 贾祯;孙欣 | 申请(专利权)人: | 上海智臻智能网络科技股份有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/35 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张振军;吴敏 |
地址: | 201803 上海市嘉*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词条 分类 方法 审计 信息 抽取 | ||
1.一种词条分类方法,其特征在于,包括:
确定离线训练完成的至少两个分类模型,所述分类模型包括CRF模型、Seq2Seq模型或Boost模型;
获取待分类文档;
分别利用所述至少两个分类模型对所述待分类文档中的各个词条进行分类,每个分类模型得到相应的分类结果,所述分类结果包括多个预设类别以及每个预设类别下的词条;
根据所述至少两个分类模型各自的准确率对全部分类结果进行融合,得到针对所述待分类文档中各个词条的最终分类结果;
所述根据所述至少两个分类模型的准确率对所述至少两个结果进行融合包括:根据离线训练时各个分类模型对应的分类结果计算各个分类模型的准确率,并根据所述准确率计算各个分类模型的准确率权重;将各个分类模型对应的分类结果与所述准确率权重进行加权以确定所述最终分类结果;
在将各个分类模型对应的分类结果与所述准确率权重进行加权时,计算各个分类结果中同一词条属于每个预设类别的分数与准确率权重的加权之和,确定加权之和的最大值对应的预设类别,并将该类别作为所述词条所属的最终预设类别;或者计算所述加权之和与各个分类结果中同一词条属于每个预设类别的分数之和的比值,并根据该比值确定最终预设类别。
2.根据权利要求1所述的词条分类方法,其特征在于,还包括:
在所述待分类文档中,将已分类词条与未分类词条区别显示,其中,所述已分类词条为各个预设类别下的词条,所述未分类词条为所述已分类词条以外的其他词条;
或者,抽取所述待分类文档中的已分类词条,并按照预设格式进行输出。
3.根据权利要求1所述的词条分类方法,其特征在于,采用以下方式离线训练所述至少两个分类模型:
获取训练文档;
选取所述训练文档中的至少一部分词条及其标注,词条的标注是指所述词条所属的预设分类;
至少将所述至少一部分词条及其标注作为训练集;
使用所述训练集分别对所述至少两个分类模型进行训练。
4.根据权利要求3所述的词条分类方法,其特征在于,所述选取所述训练文档中的至少一部分词条及其标注包括:
选取所述训练文档中的部分词条及其标注,每一预设分类下的词条的数量小于100。
5.根据权利要求3所述的词条分类方法,其特征在于,所述获取训练文档之后还包括:
将具备不同格式的训练文档转换形成具备统一格式的训练文档。
6.根据权利要求3所述的词条分类方法,其特征在于,所述选取所述训练文档中至少一部分词条及其标注之后还包括:
对具备标注的词条进行分词以及清洗,以删除停用词和预设词。
7.根据权利要求3所述的词条分类方法,其特征在于,所述至少将所述至少一部分词条及其标注作为训练集包括:
利用同义词林对所述部分词条进行语义扩展,以得到所述至少一部分词条的扩展词;
将所述部分词条及其扩展词、标注作为所述训练集。
8.根据权利要求7所述的词条分类方法,其特征在于,所述根据离线训练时各个分类模型对应的分类结果计算各个分类模型的准确率包括:
根据各个分类模型对应的分类结果计算各个分类模型的F1分数,所述F1分数作为准确率。
9.根据权利要求1所述的词条分类方法,其特征在于,所述分别利用所述至少两个分类模型对所述待分类文档中的各个词条进行分类包括:
在所述至少两个分类模型中确定待更新模型;
利用所述至少两个分类模型中除所述待更新模型之外的分类模型继续对待分类文档中的词条进行分类,并利用分类完成的各个词条及其最终分类结果对所述待更新模型进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海智臻智能网络科技股份有限公司,未经上海智臻智能网络科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811453423.3/1.html,转载请声明来源钻瓜专利网。