[发明专利]一种文档分类方法、装置、计算机设备及存储介质在审
申请号: | 202110614052.8 | 申请日: | 2021-06-02 |
公开(公告)号: | CN113515629A | 公开(公告)日: | 2021-10-19 |
发明(设计)人: | 严蕾;苏晓辉;任泽;沈志远;李维盈;陈建 | 申请(专利权)人: | 中国神华国际工程有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216;G06F40/284;G06N20/00 |
代理公司: | 北京聿宏知识产权代理有限公司 11372 | 代理人: | 陈敏;吴昊 |
地址: | 100007 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文档 分类 方法 装置 计算机 设备 存储 介质 | ||
本发明公开了一种文档分类方法、装置、计算机设备及存储介质,涉及计算机及招标技术领域,该文档分类方法包括:获取待分类的目标招标文档;基于目标招标文档的文本内容提取分类特征向量;所述分类特征向量至少包括所述目标招标文档的标的物及分类信息;所述分类特征向量输入预先建立的文档分类模型,得到针对所述目标招标文档的分类结果;所述文档分类模型是以历史招标文档为训练数据、利用XGBoost算法对所述训练数据进行机器学习、并建立分类特征向量与分类结果之间的映射关系的分类器。可见,本发明实现了招标业务的自动高效管理,无需工作人员进行复杂操作,使得招标业务更加智能化和电子化,在提高效率的同时还降低了人力成本。
技术领域
本发明涉及计算机及招标技术领域,特别涉及一种文档分类方法、装置、计算机设备及存储介质。
背景技术
现有的文档归档应用中,利用计算机对自然语言进行分类的技术已经涉及多个行业,然而,对于招标业务领域而言,由于招标业务数据繁多,使得工作人员难以实现对招标文档的高效管理,因此,有必要提出一种适用于招标业务领域的文档分类方案,以实现招标业务自动高效的管理,使得招标业务更加智能化、电子化。
发明内容
本发明要解决的技术问题是:提出一种适用于招标业务领域的文档分类方案,以实现招标业务自动高效的管理,使得招标业务更加智能化、电子化。
为解决上述技术问题,本发明提供了一种文档分类方法,包括:
获取待分类的目标招标文档;
基于所述目标招标文档的文本内容提取分类特征向量;其中,所述分类特征向量至少包括所述目标招标文档的标的物及分类信息;
将所述分类特征向量输入预先建立的文档分类模型,得到针对所述目标招标文档的分类结果;其中,所述文档分类模型是以历史招标文档为训练数据、利用XGBoost算法对所述训练数据进行机器学习、并建立分类特征向量与分类结果之间的映射关系的分类器。
可选地,所述基于所述目标招标文档的文本内容提取分类特征向量,包括:
对所述目标招标文档的文本内容进行预处理;
对预处理后的文本内容进行分词处理并得到多个分词;
基于所述多个分词提取分类特征向量。
可选地,所述基于所述多个分词提取分类特征向量,包括:
对所述多个分词进行向量化表示,得到多个特征向量;
利用词性级TF-IDF算法对多个特征向量进行加权处理,并得到各特征向量对应的文档频率;
根据所述文档频率从所述多个特征向量中确定分类特征向量。
可选地,所述分类信息至少包括行业类别和项目类型。
可选地,所述对预处理后的文本内容进行分词处理并得到多个分词,包括:
基于N-Gram语言模型以滑动窗口方式对预处理后的文本内容进行分词处理,并得到多个分词。
可选地,所述N-Gram语言模型中N的取值为2和/或3。
可选地,所述根据所述文档频率从所述多个特征向量中确定分类特征向量,包括:
逐一判断各特征向量的文档频率是否大于设定值;
保留文档频率不大于设定值的特征向量,作为分类特征向量。
为解决上述技术问题,本发明提供了一种文档分类装置,包括:
文档获取模块,用于获取待分类的目标招标文档;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国神华国际工程有限公司,未经中国神华国际工程有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110614052.8/2.html,转载请声明来源钻瓜专利网。