[发明专利]一种公告内容结构化的方法及相关装置在审
申请号: | 202010290894.8 | 申请日: | 2020-04-14 |
公开(公告)号: | CN111539806A | 公开(公告)日: | 2020-08-14 |
发明(设计)人: | 席丽娜;晋耀红;刘大双 | 申请(专利权)人: | 鼎富智能科技有限公司 |
主分类号: | G06Q40/02 | 分类号: | G06Q40/02;G06F40/295;G06F16/35 |
代理公司: | 北京弘权知识产权代理事务所(普通合伙) 11363 | 代理人: | 逯长明;许伟群 |
地址: | 230000 安徽省合肥市*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 公告 内容 结构 方法 相关 装置 | ||
本发明实施例提出一种公告内容结构化的方法及相关装置,用于自动识别企业公告中所包含的有效信息并结构化输出。本发明实施例方法包括:获取公告内容,识别公告内容中的第一类名称信息、第二类名称信息以及第三类名称信息并标记位置信息,按预设规则对公告内容进行处理,处理用于将公告内容中的第一、二、三类名称信息进行同化,经过处理后的公告内容输入经过预训练的第一模型以及第二模型,获取第一模型输出的实体信息以及第二模型输出的关系信息,并按照预设规则对实体信息与关系信息聚合输出。其中通过对公告内容进行数据处理,并将数据处理后的公告内容输入预训练的模型中,实现了公告内容中有效信息的自动识别并结构化输出。
技术领域
本发明涉及文字处理领域,尤其涉及一种公告内容结构化的方法及相关装置。
背景技术
银行及一些投资机构经常需要对待投资公司或者已经投资过的公司进行风险监控,一般想要获取目标公司的经营信息都是通过目标公司的网站公告上获取,再通过专门的业务员对公告信息进行整理,由于网站上的公告内容一般都比较多且种类繁杂,导致了人工处理速度慢且容易漏掉内容的特点。
发明内容
本发明实施例提出一种公告内容结构化的方法及相关装置,用于自动识别企业公告中所包含的有效信息并结构化输出。
本发明第一方面提出一种公告内容结构化的方法,包括:
获取公告内容;
识别所述公告内容中的第一类名称信息、第二类名称信息以及第三类名称信息并标记所述第一类名称信息、第二类名称信息以及第三类名称信息的位置信息,所述位置信息用于对所述第一类名称信息、第二类名称信息以及第三类名称信息进行映射;
根据所述映射对所述公告内容进行处理,所述处理用于将所述公告内容中的第一类名称信息、第二类名称信息以及第三类名称信息进行同化;
将所述经过处理后的公告内容输入经过预训练的第一模型以及第二模型,所述第一模型用于分析所述公告内容以获得实体信息,所述第二模型用于分析所述公告内容以获得关系信息;
获取所述第一模型输出的实体信息以及所述第二模型输出的关系信息,并按照预设规则对所述实体信息与所述关系信息聚合输出。
可选地,所述识别所述公告内容中的第一类名称信息包括:
将所述公告内容输入经过预训练的第三模型,所述第二模型用于命名识别,以获得所述第一类名称信息。
可选地,所述识别所述公告内容中的第二类名称信息与第三类名称信息包括:
将所述公告内容输入经过预训练的第四模型,所述第四模型用于根据规则对所述公告内容进行内容抽取,以获得所述第二类名称信息与第三类名称信息。
可选地,按预设规则对所述公告内容进行处理包括:
根据所述映射将所述第二类名称信息替换为所述第一类名称信息;
删除所述公告内容中的第三类名称信息。
可选地,在所述将所述第二类名称信息替换为所述第一类名称信息,删除所述公告内容中的第三类名称信息后,按预设规则对所述公告内容进行处理还包括:
将所述公告内容输入经过预训练的第五模型,所述第四模型用于处理多方关系的句型结构,以去除干扰类关系数据。
可选地,所述第二模型分析公告内容以得到关系信息包括:
获取所述第一模型输出的实体信息并根据所述实体信息搭建关系框架;
根据预设表达式与所述关系框架识别出所述公告内容中包含的关系信息。
可选地,按照预设规则对所述实体信息与所述关系信息聚合输出包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鼎富智能科技有限公司,未经鼎富智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010290894.8/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法