[发明专利]基于非结构化投标文件内容的结构化数据获取方法及装置在审
申请号: | 202011453567.6 | 申请日: | 2020-12-12 |
公开(公告)号: | CN112464957A | 公开(公告)日: | 2021-03-09 |
发明(设计)人: | 杨灿魁;谢化安;谢志武;李根;陈剑光;李志;佟忠正;雷璟;王栋;肖琪 | 申请(专利权)人: | 广东电网有限责任公司 |
主分类号: | G06K9/46 | 分类号: | G06K9/46;G06K9/34;G06K9/62;G06T7/11;G06T7/194;G06N3/04;G06N3/08 |
代理公司: | 广州一锐专利代理有限公司 44369 | 代理人: | 杨昕昕;董云 |
地址: | 510000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 结构 投标 文件 内容 数据 获取 方法 装置 | ||
本发明涉及招标采购管理技术领域,提供一种基于非结构化投标文件内容的结构化数据获取方法及装置,用于解决非结构化数据的转化问题。本发明提供的基于非结构化投标文件内容的结构化数据获取方法,包括:获取投标文件的图像;将所述图像分割为多个子图像;采用神经网络模型对多个所述子图像进行特征提取,并对提取的特征进行分析以得到目标信息,所述目标信息包括财务信息、资质信息和业绩信息。提高了非结构化数据向结构化数据转化的效率。
技术领域
本发明涉及招标采购管理技术领域,具体涉及基于非结构化投标文件内容的结构化数据获取方法。
背景技术
按照广电企【2019】8号文《关于印发公司深化招标管理改革任务分解表的通知》整体要求,通过利用供应商数据重构等技术实现客观分智能计算、投标文件自动定位、智能辅助验真,减轻专家评标时客观分评审工作量、减少专家机械工作内容、对投标文件所提供资料进行验真。
投标文件收集后,目前大多是以非结构化的数据形式存储的,例如以扫描图片的形式进行电子化存储。非结构化的数据难以有效利用。
发明内容
本发明解决的技术问题为非结构化数据的转化问题,提供基于非结构化投标文件内容的结构化数据获取方法。
为了解决上述技术问题,本发明提供的技术方案为:
基于非结构化投标文件内容的结构化数据获取方法,包括:
获取投标文件的图像;
将所述图像分割为多个子图像;
采用神经网络模型对多个所述子图像进行特征提取,并对提取的特征进行分析以得到目标信息,所述目标信息包括财务信息、资质信息和业绩信息。
从非结构化的投标文件图像上抽取出结构化的目标信息,利用神经网络可以从不同格式的投标文件中快速准确的抽取出目标信息。
提高了非结构化数据向结构化数据转化的效率。
优选地,所述神经网络模型包括深度卷积神经网络,所述深度卷积网络用于进行特征提取,采用人工标注的投标文件图像数据集为训练集,对训练集中图像进行切割,得到只有背景的负样本图像和含有文本的正样本图像,深度卷积网络模型的训练方法包括:
对图像进行再切割,得到包含文本的正样本图像和只含背景的负样本图像。利用人工标注后的投标文件图像数据训练神经网络,可以得到分类准确,有效提取特征的神经网络。
优选地,所述神经网络模型包括决策网络,所述决策网络对提取的特征进行分析以得到目标信息,所述决策网络的训练方法包括:
构建决策网络的强化学习环境;所述强化学习环境包括状态空间、动作空间和奖励函数;所述状态空间中包含图像被当前选定的区域和最终被选定的区域具有的信息;所述动作空间中动作包括选择图像中另一个区域替换当前被选定的区域;所述奖励函数包括最终奖励和中间奖励,所述中间奖励是如果命中则加1,最终奖励为最终的命中率;
选择图像上某一区域,采集数据,训练决策网络。决策网络可以从上一神经网络的输出中提取出具有目标信息的图片,在从相应图片中提取出目标信息。
优选地,所述训练决策网络的过程中,记录{状态,动作,下一状态,奖励}元组。
优选地,获取投标文本图像时,获取投标文本的格式、标题。投标文本的格式、标题作为神经网络的输入也有助于提供数据抽取效率。
基于非结构化投标文件内容的结构化数据获取装置,包括:
原图像获取模块,所述原图像获取模块获取投标文件的图像;
子图像获取模块,所述子图像获取模块将所述图像分割为多个子图像;
处理模块,所述处理模块采用神经网络模型对多个所述子图像进行特征提取,并对提取的特征进行分析以得到目标信息,所述目标信息包括财务信息、资质信息和业绩信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东电网有限责任公司,未经广东电网有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011453567.6/2.html,转载请声明来源钻瓜专利网。