[发明专利]基于聚类算法的案例匹配方法及系统在审
| 申请号: | 202211172804.0 | 申请日: | 2022-09-26 |
| 公开(公告)号: | CN115481251A | 公开(公告)日: | 2022-12-16 |
| 发明(设计)人: | 高璇;单震;李萍 | 申请(专利权)人: | 浪潮卓数大数据产业发展有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F16/16;G06F40/284 |
| 代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 潘悦梅 |
| 地址: | 214125 江苏省无锡市无锡经济开发区金融一街15号110*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 算法 案例 匹配 方法 系统 | ||
1.一种基于聚类算法的案例匹配方法,其特征在于,用于实现案例信息与法律信息的匹配,所述方法包括如下步骤:
获取多个案例文本以及多个法律文本,将所述多个案例文本以及多个法律文本均存储于同一个文件夹中;
分别对每个案例文本以及每个法律文本进行中文分词处理,得到具有多个词语的案例文本以及法律文本,所述词语作为特征词;
基于所述具有多个特征词的案例文本以及法律文本、通过TF-IDF权重计算方法构建文本特征向量;
基于所述特征向量文本为输入,通过聚类方法进行案例和法律的特征匹配。
2.根据权利要求1所述的基于聚类算法的案例匹配方法,其特征在于,对案例文本和法条文本进行预处理,将案例文本和法条文本中无关字符去掉后,分别进行中分分词处理。
3.根据权利要求1所述的基于聚类算法的案例匹配方法,其特征在于,通过jieba分词方法对案例文本和法条文本进行中文分词处理。
4.根据权利要求1所述的基于聚类算法的案例匹配方法,其特征在于,基于所述具有多个特征词的案例文本以及法律文本、通过TF-IDF权重计算方法构建文本特征向量,包括如下步骤:
将具有多个词语的案例文本和法律文本聚合到同一个目标文本中,所述目标文本中一条法律信息或一条案例信息为一行并代表一个法律问答或案件文档;
将目标文本中词语转换为词频矩阵,词频矩阵的列对应目标文本中单词,词频矩阵行对应文本,词频矩阵中元素a[i][j]表示j词在i个文本下的词频;
统计每个词语的IF-IDF权重值;
获取词袋模型中所有的词语;
获取IF-IDF矩阵,所述IF-IDF矩阵中每一行对应一段文本,为目标文本的向量表示,向量中的值为目标文本中词语的IF-IDF值,IF-IDF矩阵元素w[i][j]表示j词在i个文本下的IF-IDF权重值。
5.根据权利要求1-4任一项所述的基于聚类算法的案例匹配方法,其特征在于,基于所述特征向量文本为输入,通过K-means算法进行案例和法律的特征匹配。
6.一种基于聚类算法的案例匹配系统,其特征在于,用于通过如权利要求1-5任一项所述的基于聚类算法的案例匹配方法进行案例和法律的匹配,所述系统包括:
采集模块,所述采集模块用于获取多个案例文本以及多个法律文本,将所述多个案例文本以及多个法律文本均存储于同一个文件夹中;
分词模块,所述分词模块用于分别对每个案例文本以及每个法律文本进行中文分词处理,得到具有多个词语的案例文本以及法律文本,所述词语作为特征词;
向量构建模块,所述向量构建模块用于基于所述具有多个特征词的案例文本以及法律文本、通过TF-IDF权重计算方法构建文本特征向量;
聚类分析模块,所述聚类分析模块用于基于所述特征向量文本为输入,通过聚类方法进行案例和法律的特征匹配。
7.根据权利要求6所述的基于聚类算法的案例匹配系统,其特征在于,所述分词处理模块用于对案例文本和法条文本进行预处理,将案例文本和法条文本中无关字符去掉后,分别进行中分分词处理。
8.根据权利要求6所述的基于聚类算法的案例匹配系统,其特征在于,所述分词处理模块用于通过jieba分词方法对案例文本和法条文本进行中文分词处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮卓数大数据产业发展有限公司,未经浪潮卓数大数据产业发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211172804.0/1.html,转载请声明来源钻瓜专利网。





