[发明专利]基于聚类算法的案例匹配方法及系统在审
| 申请号: | 202211172804.0 | 申请日: | 2022-09-26 |
| 公开(公告)号: | CN115481251A | 公开(公告)日: | 2022-12-16 |
| 发明(设计)人: | 高璇;单震;李萍 | 申请(专利权)人: | 浪潮卓数大数据产业发展有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F16/16;G06F40/284 |
| 代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 潘悦梅 |
| 地址: | 214125 江苏省无锡市无锡经济开发区金融一街15号110*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 算法 案例 匹配 方法 系统 | ||
本发明公开了基于聚类算法的案例匹配方法及系统,属于数据处理技术领域,要解决的技术问题为如何对案例案例信息与法律信息进行匹配。获取多个案例文本以及多个法律文本,将所述多个案例文本以及多个法律文本均存储于同一个文件夹中;分别对每个案例文本以及每个法律文本进行中文分词处理,得到具有多个词语的案例文本以及法律文本,所述词语作为特征词;基于所述具有多个特征词的案例文本以及法律文本、通过TF‑IDF权重计算方法构建文本特征向量;基于所述特征向量文本为输入,通过聚类方法进行案例和法律的特征匹配。
技术领域
本发明涉及数据处理技术领域,具体地说是基于聚类算法的案例匹配方法及系统。
背景技术
随着计算机设备及网络技术的蓬勃发展及快速普及,许多传统的信息处理方式因此而改变,大量原本是以书面形式存在的文本信息,被转化成电子文本的形式来储存及传递,但是信息的产生和传递效率提升时,也产生信息爆炸的现象,但传统的信息检索方式可能无法有效帮助我们获取关键信息,所以试图从文本中获取有效信息的研究因此产生。目前文本挖掘技术已经在医学,法律,工程,计算机等很多领域广发应用。在法律方面,日常的法律运作信息化程度也越来越高。计算机技术的发展,使得计算机技术可以应用于快速处理法律文本信息。信息网络和信息系统每天都会有大量文本数据需要处理,这些文本资源中的关键信息可以通过计算机技术提取出来,但因为提取关键文本信息的技术并未应用到法律与案例行为的匹配,所以在法律方面的智能技术比较匮乏。
如何对案例信息与法律信息进行匹配,是需要解决的技术问题。
发明内容
本发明的技术任务是针对以上不足,提供基于聚类算法的案例匹配方法及系统,来解决如何对案例信息与法律信息进行匹配的技术问题。
第一方面,本发明一种基于聚类算法的案例匹配方法,用于实现案例信息与法律信息的匹配,所述方法包括如下步骤:
获取多个案例文本以及多个法律文本,将所述多个案例文本以及多个法律文本均存储于同一个文件夹中;
分别对每个案例文本以及每个法律文本进行中文分词处理,得到具有多个词语的案例文本以及法律文本,所述词语作为特征词;
基于所述具有多个特征词的案例文本以及法律文本、通过TF-IDF权重计算方法构建文本特征向量;
基于所述特征向量文本为输入,通过聚类方法进行案例和法律的特征匹配。
作为优选,对案例文本和法条文本进行预处理,将案例文本和法条文本中无关字符去掉后,分别进行中分分词处理。
作为优选,通过jieba分词方法对案例文本和法条文本进行中文分词处理。
作为优选,所述具有多个特征词的案例文本以及法律文本、通过TF-IDF 权重计算方法构建文本特征向量,包括如下步骤:
将具有多个词语的案例文本和法律文本聚合到同一个目标文本中,所述目标文本中一条法律信息或一条案例信息为一行并代表一个法律问答或案件文档;
将目标文本中词语转换为词频矩阵,词频矩阵的列对应目标文本中单词,词频矩阵行对应文本,词频矩阵中元素a[i][j]表示j词在i个文本下的词频;
统计每个词语的IF-IDF权重值;
获取词袋模型中所有的词语;
获取IF-IDF矩阵,所述IF-IDF矩阵中每一行对应一段文本,为目标文本的向量表示,向量中的值为目标文本中词语的IF-IDF值,IF-IDF矩阵元素w[i][j]表示j词在i个文本下的IF-IDF权重值。
作为优选,基于所述特征向量文本为输入,通过K-means算法进行案例和法律的特征匹配。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮卓数大数据产业发展有限公司,未经浪潮卓数大数据产业发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211172804.0/2.html,转载请声明来源钻瓜专利网。





