[发明专利]一种获取招标产品信息的方法及装置有效
| 申请号: | 201710629756.6 | 申请日: | 2017-07-28 |
| 公开(公告)号: | CN107368464B | 公开(公告)日: | 2020-07-10 |
| 发明(设计)人: | 赵勇 | 申请(专利权)人: | 深圳数众科技有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F40/14 |
| 代理公司: | 北京众达德权知识产权代理有限公司 11570 | 代理人: | 刘杰 |
| 地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 获取 招标 产品信息 方法 装置 | ||
本发明公开了一种获取招标产品信息的方法及装置,其中的方法包括:基于预设招标公告页面的文档对象模型树结构,获取招标公告文本;将所述招标公告文本分解为多个语句;根据预设规则,将所述语句分为第一语句集合和第二语句集合;根据所述第一语句集合,获得第一训练集合,根据所述第二语句集合,获得第二训练集合;基于所述第一训练集合和所述第二训练集合,训练获得贝叶斯分类模型的分类器;根据所述分类器,从待处理的招标公告文本中,获取目标招标产品信息。本发明解决了现有技术中获取的招标产品信息存在准确性不高的技术问题。
技术领域
本发明属于计算机技术领域,尤其涉及一种获取招标产品信息的方法及装置。
背景技术
随着互联网技术的快速发展,互联网已经成为招标公告中招标产品信息发布的重要手段载体。
现有方法中,当需要从互联网招标公告网页中获取待招标产品的信息时,一般通过人工定期查看相关的网页,并逐一阅读每个网页来判断是否发布了相关的招标产品信息。然而,通过人工定期查看网页并阅读网页来判断是否为相关的招标产品信息的方法,需要耗费大量的人力成本和时间成本,并且查找效率和准确率不高。
为了解决上述问题,有些方法将招标公告页面视为一个整体,然后通过关键词匹配的方式从招标公告页面获取相关的信息,但是这种方法限制了招标公告信息的使用。例如,以关键词“电话”进行匹配,如果招标公告页面中包含词汇“电话”则认为是相关的招标产品信息,但是上述关键词很有可能是其他的干扰信息,例如电话为招标方的联系电话,因此,现有技术中的方法,获取的招标产品信息存在准确性不高的技术问题。
发明内容
本发明提供一种获取招标产品信息的方法及装置,用以解决现有技术中获取的招标产品信息存在准确性不高的技术问题。
第一方面,本发明实施例提供了一种获取招标产品信息的方法,所述方法包括:
基于预设招标公告页面的文档对象模型树结构,获取招标公告文本;
将所述招标公告文本分解为多个语句;
根据预设规则,将所述语句分为第一语句集合和第二语句集合,其中,所述第一语句集合为包含与招标产品信息相关的语句的集合,所述第二语句集合为不包含与招标产品信息相关的语句的集合;
根据所述第一语句集合,获得第一训练集合,根据所述第二语句集合,获得第二训练集合;
基于所述第一训练集合和所述第二训练集合,训练获得贝叶斯分类模型的分类器;
根据所述分类器,从待处理的招标公告文本中,获取目标招标产品信息。
本发明提供的方法中,所述将所述招标公告文本分解为多个语句,包括:
根据边界标志,对所述招标文本进行划分,所述边界标志包括句号、分段符、换行符;
根据划分的结果,将所述招标公告文本分解为多个语句。
本发明提供的方法中,所述根据所述第一语句集合,获得第一训练集合,根据所述第二语句集合,获得第二训练集合,包括:
对所述第一语句集合进行分词处理,并去除分词处理后的第一语句集合中的语句的停用词,获得第一目标语句集合,将所述第一目标语句集合作为所述第一训练集合;
对所述第二语句集合进行分词处理,并去除分词处理后的第二语句集合中的语句的停用词,获得第二目标语句集合,将所述第二目标语句集合作为所述第二训练集合。
本发明提供的方法,在所述基于所述第一训练集合和所述第二训练集合,训练获得贝叶斯分类模型的分类器之后,所述方法还包括:
根据用户的反馈信息,扩充所述第一训练集合和所述第二训练集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳数众科技有限公司,未经深圳数众科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710629756.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种触摸补光灯
- 下一篇:一种可迭代优化的文档分析结果的保存方法





