[发明专利]合同要素抽取方法、装置、电子设备及介质有效
| 申请号: | 202011502263.4 | 申请日: | 2020-12-18 |
| 公开(公告)号: | CN112529743B | 公开(公告)日: | 2023-08-08 |
| 发明(设计)人: | 李骁;赖众程;黄明佺;高洪喜;张舒婷;陈杭;史文鑫;王武海;李会璟;李林毅;冷旭 | 申请(专利权)人: | 平安银行股份有限公司 |
| 主分类号: | G06Q50/18 | 分类号: | G06Q50/18;G06F40/247;G06F40/279;G06F40/30;G06F18/214;G06N3/045 |
| 代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 合同 要素 抽取 方法 装置 电子设备 介质 | ||
1.一种合同要素抽取方法,其特征在于,所述方法包括:
获取合同数据样本集,从所述合同数据样本集中提取要素问题及对应的要素答案,得到要素问题集和其对应的要素答案集;
根据所述要素答案集从所述合同数据样本集中筛选出关键词集合,利用所述关键词集合构建关键词对库,并利用预设的语义共现网络对所述关键词对库进行同义词扩写处理,得到扩写词对库;
根据所述要素答案集和所述扩写词对库,对所述合同数据样本集进行文本片段框选处理,得到文本片段集,并将所述要素问题集和所述文本片段集进行格式转换,得到训练数据集;
利用预设的要素抽取模型对所述训练数据集进行要素抽取,得到标准要素集,计算所述标准要素集和所述要素答案集之间的损失值,根据所述损失值调整所述要素抽取模型的内部参数,直到所述要素抽取模型趋于收敛,得到标准要素抽取模型;
获取待抽取合同,利用所述扩写词对库从所述待抽取合同中筛选得到合同片段集,利用所述标准要素抽取模型对所述待抽取合同及所述合同片段进行要素抽取,得到一种或者多种输出要素集;
根据预设的投票机制对多个所述输出要素集进行投票处理,得到每种输出要素对应的概率值,选择最大概率值对应的输出要素作为合同要素,并输出所述合同要素;
其中,所述根据所述要素答案集从所述合同数据样本集中筛选出关键词集合,利用所述关键词集合构建关键词对库,并利用预设的语义共现网络对所述关键词对库进行同义词扩写处理,得到扩写词对库,包括:对所述合同数据样本集进行分词处理,得到分词数据集;对所述分词数据集进行词性标注和去停用词处理,得到初始数据集;根据所述关键词对库,从所述初始数据集中筛选出扩展关键词,并根据所述扩展关键词构建语义共现网络;利用所述语义共现网络分析所述关键词对库,生成同义词列表,选取所述同义词列表中的前N个词扩充到关键词对库中,得到扩写词对库;
所述根据所述关键词对库,从所述初始数据集中筛选出扩展关键词,并根据所述扩展关键词构建语义共现网络,包括:从所述初始数据集中搜索得到与所述关键词对库中的关键词具有相同词性的词语集合作为扩展关键词;以所述关键词对库中的关键词为中心,以具有相同词性的扩展关键词作为邻居节点,构建语义共现网络;
所述利用预设的要素抽取模型对所述训练数据集进行要素抽取,得到标准要素集,包括:对所述训练数据集进行向量化处理,得到训练向量集;利用所述要素抽取模型中的门控制机制对所述训练向量集进行向量变换处理,得到变换向量集;利用所述要素抽取模型中的多层神经网络对所述变换向量集进行向量概率计算,得到所述变换向量集对应的概率值集合;将所述概率值集合中概率值大于预设概率阈值的变换向量对应的训练数据判定为标准要素,汇总得到标准要素集。
2.如权利要求1所述的合同要素抽取方法,其特征在于,所述获取待抽取合同,利用所述扩写词对库从所述待抽取合同中筛选得到合同片段集,包括:
对所述待抽取合同进行归类处理,得到所述待抽取合同的合同类别;
根据所述合同类别遍历对应的扩写词对库,查找在所述待抽取合同中出现的扩写词,并标注出查找到的扩写词在所述待抽取合同中的位置;
根据所述扩写词在所述待抽取合同中的位置对所述待抽取合同筛选,得到合同片段集。
3.如权利要求1所述的合同要素抽取方法,其特征在于,所述根据所述要素答案集和所述扩写词对库,对所述合同数据样本集进行文本片段框选处理,得到文本片段集,包括:
根据所述要素答案集中的要素答案从所述扩写词对库中搜索出所述要素答案对应的多个要素扩写词;
在所述合同数据样本集中搜索所述多个要素扩写词,得到所述多个要素扩展词在所述合同数据样本集中的位置,根据多个要素扩写词的位置框选出所述文本片段集。
4.如权利要求1所述的合同要素抽取方法,其特征在于,所述计算所述标准要素集和所述要素答案集之间的损失值,包括:
其中, loss为损失值,为标准要素集,为要素答案集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安银行股份有限公司,未经平安银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011502263.4/1.html,转载请声明来源钻瓜专利网。





