[发明专利]合约信息提取方法及装置在审
| 申请号: | 202210103391.4 | 申请日: | 2022-01-27 |
| 公开(公告)号: | CN114492410A | 公开(公告)日: | 2022-05-13 |
| 发明(设计)人: | 侯依宁;李长亮 | 申请(专利权)人: | 北京金山数字娱乐科技有限公司;成都金山互动娱乐科技有限公司 |
| 主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F16/28 |
| 代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 张小娜 |
| 地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 合约 信息 提取 方法 装置 | ||
本申请提供合约信息提取方法及装置,其中合约信息提取方法包括:获取目标合约文本,提取目标合约文本中的目标段落,目标段落包含合约方实体信息;将目标段落输入至预先训练的信息集抽取模型中,得到目标段落对应的至少一个信息集,信息集中包含合约方标识、信息类别和合约方实体信息,信息集抽取模型基于携带有信息集标签的第一样本段落训练得到;确定目标合约方标识对应的至少一个目标信息集;根据各目标信息集中的信息类别和合约方实体信息,确定目标合约方标识对应的合约信息。利用信息集抽取模型自动学习实体之间的关系,避免了使用人工规则确定信息集的局限性,不仅提高了确定合约信息的效率,还提高了合约信息的精准度。
技术领域
本申请涉及数据处理技术领域,特别涉及一种合约信息提取方法。本申请同时涉及一种合约信息提取装置、一种计算设备,以及一种计算机可读存储介质。
背景技术
人工智能(artificial intelligence;AI)是指已工程化(即设计并制造)的系统感知环境的能力,以及获取、处理、应用和表示知识的能力。自然语言处理、机器人、计算机视觉成为了人工智能最为热门的三个产业方向。人工智能领域关键技术的发展状况,包括机器学习、知识图谱、自然语言处理、计算机视觉、人机交互、生物特征识别、虚拟现实/增强现实等关键技术。随着计算机技术的发展,自然语言处理领域也得到了快速发展,自然语言处理(NLP,Natural Language Processing)是计算机科学领域的一个重要研究方向,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理的具体表现形式包括机器翻译、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识别等。自然语言处理面临四大挑战:一是在词法、句法、语义、语用和语音等不同层面存在不确定性;二是新的词汇、术语、语义和语法导致未知语言现象的不可预测性;三是数据资源的不充分使其难以覆盖复杂的语言现象;四是语义知识的模糊性和错综复杂的关联性难以用简单的数学模型描述,语义计算需要参数庞大的非线性计算。
书面语言是指人们在书写和阅读文章时所使用的语言,通过文字及书面语言的表现形式可对所需表达或者记录的信息进行记录保存。文本是指书面语言的表现形式,通常是具有完整、系统含义的一个句子或多个句子的组合。一个文本可以是一个句子、一个段落或者一个篇章,如使用文字记载的文献、文书等都属于文本。传统的文本一般是以纸张作为载体进行保存。
文本也是计算机的一种文档类型。随着计算机技术的应用范围越来越广泛,电子文本的应用也越来越广泛,各类文本类型都可以在网络上获取得到。尤其是一些具备固定格式要求的文书,例如各种合同、协议、证明文件等合约文本。
随着大数据时代的到来,合约文本的数量也越来越多,为了减少数据处理量,需要对合约文本的信息进行提取。从合约文本中抽取出合约方信息是合约信息提取的关键一部分,合约方信息提取不仅涉及到实体的识别,还要找出实体之间的关系。现有技术中,利用命名实体识别模型抽取合约文本中的合约方信息,仅仅能够识别出相应的实体,实体之间的关系只能通过预定义的规则判断;此外合约文本的格式多种多样,使用预定义的规则难以覆盖所有可能的情况,并且命名实体识别模型结果错误会直接影响后续实体之间的关系判断。因此,亟需一种有效的方案以解决上述问题。
发明内容
有鉴于此,本申请实施例提供了一种合约信息提取方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种合约信息提取装置,一种计算设备,以及一种计算机可读存储介质。
根据本申请实施例的第一方面,提供了一种合约信息提取方法,包括:
获取目标合约文本,提取目标合约文本中的目标段落,其中,目标段落包含合约方实体信息;
将目标段落输入至预先训练的信息集抽取模型中,得到目标段落对应的至少一个信息集,其中,信息集中包含合约方标识、信息类别和合约方实体信息,信息集抽取模型基于携带有信息集标签的第一样本段落训练得到,信息集标签包括合约方标识标签、信息类别标签和合约方实体信息标签;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山数字娱乐科技有限公司;成都金山互动娱乐科技有限公司,未经北京金山数字娱乐科技有限公司;成都金山互动娱乐科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210103391.4/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





