[发明专利]一种合同分类自动识别方法及系统在审
申请号: | 201611265396.8 | 申请日: | 2016-12-30 |
公开(公告)号: | CN106844554A | 公开(公告)日: | 2017-06-13 |
发明(设计)人: | 许林 | 申请(专利权)人: | 全民互联科技(天津)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62;G06Q10/06;G06Q50/18 |
代理公司: | 天津滨海科纬知识产权代理有限公司12211 | 代理人: | 李成运 |
地址: | 300384 天津市滨海新区高新区华苑产业*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 合同 分类 自动识别 方法 系统 | ||
技术领域
本发明属于信息化服务技术领域,尤其是涉及一种合同分类自动识别方法及系统。
背景技术
在市场经济中,公司日常经营中合同扮演了越来越重要的角色,如何在日常经营中防范合同风险显得尤为重要。合同风险包括了合同的管理风险和合同的法律风险,合同的管理风险是从合同的管理职能出发,而法律风险则是从合同文本的完备性和有效性出发,深入研究各种条款的设计技巧。随着人工智能技术的飞速发展,在国外,采用计算机技术的人工智能合同法律风险自动识别的研究已经取得了初步成果;在国内,由于汉语的语义自动识别与英文有着巨大的差异,采用人工智能技术的合同法律风险识别研究还处于起步阶段。
由于合同种类繁多,不同种类合同的法律风险也不同。因此,高识别率的合同分类自动识别技术成为采用计算机技术实现合同法律风险自动提示的关键难题。
现有技术的缺点:
1、目前国内对于合同法律风险自动识别的研究中,采用了由用户自己选择合同分类,然后再由计算机给出针对性的风险提示。由于合同种类繁多,合同各类别之间的界限模糊,一般非法律专业人员很难准确界定自己的合同的确切分类。因此,因用户选择类别错误,造成合同法律风险提示非常不准确,难以达到实际应用的要求。
2、由于汉语的语言结构与英文不同,目前也无法直接借鉴国外的成功经验。
发明内容
有鉴于此,本发明旨在提出一种合同分类自动识别方法,解决了现有技术中存在的采用计算机自动识别合同分类时,识别率不高的问题。
为达到上述目的,本发明的技术方案是这样实现的:
一种合同分类自动识别方法,包括如下步骤:
(1)采用有人工干预的深度学习算法,排除样本中不能反映合同本质特性关键词;
(2)通过大量样本学习,对关键词的权重进行设置;
(3)找出不同合同分类的差异,判断合同类别。
进一步的,所述步骤(1)具体包括如下步骤:
(1)通过互联网搜索到各类合同样本,目前样本数量为1000份;
(2)采用基于字典的最大逆向分词算法,找出每类合同出现频次最高的关键词,按照中文的语言规则,筛选3-6个汉字的词语,去除形容词性的关键词,每类留存30个以内的关键词。
进一步的,所述步骤(2)具体包括如下步骤:
(1)对不同关键词设置不同的权重,对于能够明显确定合同类别的关键词给予较高权重;对于不能明显确定合同分类的关键词给予较低权重;
(2)按照上述方式给予关键词设定权重从1-50,每次增量10,依次判别1000份样本合同的分类是否正确,计算出相应的识别率,取其中识别率最高的作为最优权重。
进一步的,所述步骤(3)具体包括对具有特征的关键词赋予的权重比较高,用来区分比较接近的合同种类。
采用对不同种类合同的特征关键词赋予不同权重,并结合与或非逻辑运算,达到高识别率。具体实现方式是编制自动识别程序,对权重值进行智能优化,找出最优权重,而对关键词权重的范围是依据专业人员的专业知识拟定。
相对于现有技术,本发明所述的一种合同分类自动识别方法具有以下优势:本方法采用计算机人工智能技术实现了对汉语合同的自动识别和分类,识别率非常高,达到了实际应用的要求,解决了目前靠用户自行选择合同分类引起法律风险提示不准确的问题。
本发明的另一目的在于提出一种合同分类自动识别系统,解决了现有技术中存在的采用计算机自动识别合同分类时,识别率不高的问题。
为达到上述目的,本发明的技术方案是这样实现的:
一种合同分类自动识别系统,包括
用于采用有人工干预的深度学习算法,排除样本中不能反映合同本质特性关键词的提取模块;
用于通过大量样本学习,对关键词的权重进行设置的设置模块;
用于找出不同合同分类的差异,判断合同类别的判别模块。
进一步的,所述提取模块包括
用于通过互联网搜索到各类合同样本,目前样本数量为1000份的搜索模块;
用于采用基于字典的最大逆向分词算法,找出每类合同出现频次最高的关键词,按照中文的语言规则,筛选3-6个汉字的词语,去除形容词性的关键词,每类留存30个以内的关键词的筛选模块。
进一步的,所述设置模块包括
用于对不同关键词设置不同的权重,对于能够明显确定合同类别的关键词给予较高权重;对于不能明显确定合同分类的关键词给予较低权重的不同权重设置模块;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于全民互联科技(天津)有限公司,未经全民互联科技(天津)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611265396.8/2.html,转载请声明来源钻瓜专利网。