[发明专利]合同要素抽取方法、装置、电子设备及介质有效
| 申请号: | 202011502263.4 | 申请日: | 2020-12-18 |
| 公开(公告)号: | CN112529743B | 公开(公告)日: | 2023-08-08 |
| 发明(设计)人: | 李骁;赖众程;黄明佺;高洪喜;张舒婷;陈杭;史文鑫;王武海;李会璟;李林毅;冷旭 | 申请(专利权)人: | 平安银行股份有限公司 |
| 主分类号: | G06Q50/18 | 分类号: | G06Q50/18;G06F40/247;G06F40/279;G06F40/30;G06F18/214;G06N3/045 |
| 代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 合同 要素 抽取 方法 装置 电子设备 介质 | ||
本发明涉及语义解析技术,揭露一种合同要素抽取方法,包括:从合同数据样本集中提取要素问题集和要素答案集,对合同数据样本集筛选和同义词扩写得到扩写词对库,对合同数据样本集进行文本片段框选和格式转换,得到训练数据集并抽取得到标准要素集,计算其与要素答案集的损失值,直到要素抽取模型收敛,得到标准要素抽取模型;利用标准要素抽取模型对待抽取合同及抽取的合同片段进行要素抽取,得到多种输出要素集并投票输出合同要素。本发明还涉及区块链技术,所述扩写词对库等可以存储在区块链节点中。本发明还揭露一种合同要素抽取装置、电子设备及存储介质。本发明可以解决通过预设的实体识别规则提取实体时建模困难且准确率较低的问题。
技术领域
本发明涉及语义解析技术领域,尤其涉及一种合同要素抽取方法、装置、电子设备及计算机可读存储介质。
背景技术
合同是民事主体之间设立、变更、终止民事法律关系的协议,通常由民事主体之间根据想要约束的条款自由订立,因此不同合同之间格式各不相同,描述方式也有差别。一般一篇合同的字数接近几万字,在双方准备签订合同之前,通常需要对合同中的关键合同要素进行抽取并仔细查阅。
现有的抽取关键合同要素的方法通常是根据预设的实体识别规则,提取合同中一个或者多个实体,并对实体进行关系抽取和对实体关系进行求并集,得到最终的关键合同要素,这种方法需要维护实体识别和实体关系抽取两个方面,增大了处理层级关系的难度,同时建模困难,准确率较低。
发明内容
本发明提供一种合同要素抽取方法、装置、电子设备及计算机可读存储介质,其主要目的在于解决通过预设的实体识别规则提取实体时建模困难且准确率较低的问题。
为实现上述目的,本发明提供的一种合同要素抽取方法,包括:
获取合同数据样本集,从所述合同数据样本集中提取要素问题及对应的要素答案,得到要素问题集和其对应的要素答案集;
根据所述要素答案集从所述合同数据样本集中筛选出关键词集合,利用所述关键词集合构建关键词对库,并利用预设的语义共现网络对所述关键词对库进行同义词扩写处理,得到扩写词对库;
根据所述要素答案集和所述扩写词对库,对所述合同数据样本集进行文本片段框选处理,得到文本片段集,并将所述要素问题集和所述文本片段集进行格式转换,得到训练数据集;
利用预设的要素抽取模型对所述训练数据集进行要素抽取,得到标准要素集,计算所述标准要素集和所述要素答案集之间的损失值,根据所述损失值调整所述要素抽取模型的内部参数,直到所述要素抽取模型趋于收敛,得到标准要素抽取模型;
获取待抽取合同,利用所述扩写词对库从所述待抽取合同中筛选得到合同片段集,利用所述标准要素抽取模型对所述待抽取合同及所述合同片段进行要素抽取,得到一种或者多种输出要素集;
根据预设的投票机制对多个所述输出要素集进行投票处理,得到每种输出要素对应的概率值,选择最大概率值对应的输出要素作为合同要素,并输出所述合同要素。
可选地,所述根据所述合同数据样本集利用预设的语义共现网络对所述关键词对库进行同义词扩写处理,得到扩写词对库,包括:
对所述合同数据样本集进行分词处理,得到分词数据集;
对所述分词数据集进行词性标注和去停用词处理,得到初始数据集;
根据所述关键词对库,从所述初始数据集中筛选出扩展关键词,并根据所述扩展关键词构建语义共现网络;
利用所述语义共现网络分析所述关键词对库,生成同义词列表,选取所述同义词列表中的前N个词扩充到关键词对库中,得到扩写词对库。
可选地,所述根据所述关键词对库,从所述初始数据集中筛选出扩展关键词,并根据所述关键词构建语义共现网络,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安银行股份有限公司,未经平安银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011502263.4/2.html,转载请声明来源钻瓜专利网。





