[发明专利]基于非结构化投标文件内容的结构化数据获取方法及装置在审
申请号: | 202011453567.6 | 申请日: | 2020-12-12 |
公开(公告)号: | CN112464957A | 公开(公告)日: | 2021-03-09 |
发明(设计)人: | 杨灿魁;谢化安;谢志武;李根;陈剑光;李志;佟忠正;雷璟;王栋;肖琪 | 申请(专利权)人: | 广东电网有限责任公司 |
主分类号: | G06K9/46 | 分类号: | G06K9/46;G06K9/34;G06K9/62;G06T7/11;G06T7/194;G06N3/04;G06N3/08 |
代理公司: | 广州一锐专利代理有限公司 44369 | 代理人: | 杨昕昕;董云 |
地址: | 510000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 结构 投标 文件 内容 数据 获取 方法 装置 | ||
1.基于非结构化投标文件内容的结构化数据获取方法,其特征在于,包括:
获取投标文件的图像;
将所述图像分割为多个子图像;
采用神经网络模型对多个所述子图像进行特征提取,并对提取的特征进行分析以得到目标信息,所述目标信息包括财务信息、资质信息和业绩信息。
2.根据权利要求1所述的基于非结构化投标文件内容的结构化数据获取方法,其特征在于,所述神经网络模型包括深度卷积神经网络,所述深度卷积网络用于进行特征提取,采用人工标注的投标文件图像数据集为训练集,对训练集中图像进行切割,得到只有背景的负样本图像和含有文本的正样本图像,深度卷积网络模型的训练方法包括:
对图像进行再切割,得到包含文本的正样本图像和只含背景的负样本图像。
3.根据权利要求2所述的基于非结构化投标文件内容的结构化数据获取方法,其特征在于,所述神经网络模型包括决策网络,所述决策网络对提取的特征进行分析以得到目标信息,所述决策网络的训练方法包括:
构建决策网络的强化学习环境;所述强化学习环境包括状态空间、动作空间和奖励函数;所述状态空间中包含图像被当前选定的区域和最终被选定的区域具有的信息;所述动作空间中动作包括选择图像中另一个区域替换当前被选定的区域;所述奖励函数包括最终奖励和中间奖励,所述中间奖励是如果命中则加1,最终奖励为最终的命中率;
选择图像上某一区域,采集数据,训练决策网络。
4.根据权利要求1所述的基于非结构化投标文件内容的结构化数据获取方法,其特征在于,所述训练决策网络的过程中,记录{状态,动作,下一状态,奖励}元组。
5.根据权利要求1所述的基于非结构化投标文件内容的结构化数据获取方法,其特征在于,获取投标文本图像时,获取投标文本的格式、标题。
6.基于非结构化投标文件内容的结构化数据获取装置,其特征在于,包括:
原图像获取模块,所述原图像获取模块获取投标文件的图像;
子图像获取模块,所述子图像获取模块将所述图像分割为多个子图像;
处理模块,所述处理模块采用神经网络模型对多个所述子图像进行特征提取,并对提取的特征进行分析以得到目标信息,所述目标信息包括财务信息、资质信息和业绩信息。
7.根据权利要求6所述的基于非结构化投标文件内容的结构化数据获取装置,其特征在于,所述处理模块包括第一处理模块,所述第一处理模块采用深度卷积神经网络进行特征提取,采用人工标注的投标文件图像数据集为训练集,对训练集中图像进行切割,得到只有背景的负样本图像和含有文本的正样本图像,深度卷积网络模型的训练方法包括:
对图像进行再切割,得到包含文本的正样本图像和只含背景的负样本图像。
8.根据权利要求6所述的基于非结构化投标文件内容的结构化数据获取装置,其特征在于,所述处理模块包括第二处理模块,所述第二处理模块采用决策网络对提取的特征进行分析以得到目标信息,所述决策网络的学习方法为:
构建决策网络的强化学习环境;所述强化学习环境包括状态空间、动作空间和奖励函数;所述状态空间中包含图像被当前选定的区域和最终被选定的区域具有的信息;所述动作空间中动作包括选择图像中另一个区域替换当前被选定的区域;所述奖励函数包括最终奖励和中间奖励,所述中间奖励是如果命中则加1,最终奖励为最终的命中率;
所述第二处理模块选择图像上某一区域,采集数据,训练决策网络。
9.根据权利要求6所述的基于非结构化投标文件内容的结构化数据获取装置,其特征在于,所述第二处理模块包括记录模块,所述记录模块在所述训练决策网络的过程中,记录{状态,动作,下一状态,奖励}元组。
10.根据权利要求6所述的基于非结构化投标文件内容的结构化数据获取装置,其特征在于,还包括图像信息获取模块,所述图像信息获取模块获取投标文本图像时,获取投标文本的格式、标题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东电网有限责任公司,未经广东电网有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011453567.6/1.html,转载请声明来源钻瓜专利网。