[发明专利]基于多标签分类模型实现的法律多意图识别方法和装置在审
申请号: | 202211441568.8 | 申请日: | 2022-11-17 |
公开(公告)号: | CN115964484A | 公开(公告)日: | 2023-04-14 |
发明(设计)人: | 张泽龙 | 申请(专利权)人: | 北京智谱华章科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/332;G06Q50/18;G06F18/241;G06N20/00 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 石茵汀 |
地址: | 100084 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 标签 分类 模型 实现 法律 意图 识别 方法 装置 | ||
1.一种基于多标签分类模型实现的法律多意图识别方法,其特征在于,包括以下步骤:
获取原始法律咨询的文本数据和咨询意图,对所述文本数据进行预处理;
将所述预处理后的文本数据作为输入,将所述文本数据对应的咨询意图作为标签对GLM模型进行微调训练,得到多分类意图识别模型;
获取待识别文本数据,对所述待识别文本数据进行预处理;
将所述待识别文本数据输入多分类意图识别模型,生成所述待识别文本数据对应的多个意图。
2.如权利要求1所述的方法,其特征在于,对所述文本数据进行预处理,包括:
使用文本改写模型将所述文本数据改写为书面文本数据;
通过指代消解模型对所述书面文本数据进行指代消解,消除歧义文本;
去除经过指代消解的书面文本数据的停用词;
分别对所述去除停用词的书面文本数据提取关键词和文本摘要,得到关键词和文本摘要。
3.如权利要求2所述的方法,其特征在于,在所述使用文本改写模型将所述文本数据改写为书面文本数据之前,包括:
获取法律口语化文本及其对应语意的书面文本作为训练数据;
将所述口语化文本作为输入,将所述书面文本作为标签,对所述文本改写模型进行训练。
4.如权利要求2所述的方法,其特征在于,所述通过指代消解模型对所述书面文本数据进行指代消解,消除歧义文本,包括:
使用BERT模型提取实体的嵌入表示;
根据所述嵌入表示进行实体指代关系预测;
根据所述实体指代关系的预测结果,对所述书面文本数据进行指代消解预测,从而得到经过指代消解的书面文本数据。
5.如权利要求4所述的方法,其特征在于,在所述通过指代消解模型对所述书面文本数据进行指代消解,消除歧义文本之前,包括:
获取对话数据;
通过对所述对话数据进行实体指代和指代关系标注,构建训练数据集;
利用所述训练数据集对所述指代消解模型进行训练。
6.如权利要求1所述的方法,其特征在于,所述将所述待识别文本数据输入多分类意图识别模型,生成所述待识别文本数据对应的多个意图,包括:
将所述待识别文本数据输入多分类意图识别模型,所述多分类意图识别模型自动识别意图数量和意图类别,并依次输出识别得到的多个意图。
7.一种基于多标签分类模型实现的法律多意图识别装置,其特征在于,包括:
第一获取模块,用于获取原始法律咨询的文本数据和咨询意图,对所述文本数据进行预处理;
训练模块,用于将所述预处理后的文本数据作为输入,将所述文本数据对应的咨询意图作为标签对GLM模型进行微调训练,得到多分类意图识别模型;
第二获取模块,用于获取待识别文本数据,对所述待识别文本数据进行预处理;
生成模块,用于将所述待识别文本数据输入多分类意图识别模型,生成所述待识别文本数据对应的多个意图。
8.如权利要求7所述的装置,其特征在于,对所述文本数据进行预处理,包括:
使用文本改写模型将所述文本数据改写为书面文本数据;
通过指代消解模型对所述书面文本数据进行指代消解,消除歧义文本;
去除经过指代消解的书面文本数据的停用词;
分别对所述去除停用词的书面文本数据提取关键词和文本摘要,得到关键词和文本摘要。
9.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-6中任一所述的方法。
10.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6中任一所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智谱华章科技有限公司,未经北京智谱华章科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211441568.8/1.html,转载请声明来源钻瓜专利网。