[发明专利]基于多标签分类模型实现的法律多意图识别方法和装置在审
申请号: | 202211441568.8 | 申请日: | 2022-11-17 |
公开(公告)号: | CN115964484A | 公开(公告)日: | 2023-04-14 |
发明(设计)人: | 张泽龙 | 申请(专利权)人: | 北京智谱华章科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/332;G06Q50/18;G06F18/241;G06N20/00 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 石茵汀 |
地址: | 100084 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 标签 分类 模型 实现 法律 意图 识别 方法 装置 | ||
本申请提出了一种基于多标签分类模型实现的法律多意图识别方法,涉及意图识别技术领域,其中,该方法包括:获取原始法律咨询的文本数据和咨询意图,对文本数据进行预处理;将预处理后的文本数据作为输入,将文本数据对应的咨询意图作为标签对GLM模型进行微调训练,得到多分类意图识别模型;获取待识别文本数据,对待识别文本数据进行预处理;将待识别文本数据输入多分类意图识别模型,生成待识别文本数据对应的多个意图。本申请通过模型学习能够在法律意图识别中更加客观准确的分析咨询者的意图,提升了识别效率、准确率和全面性。
技术领域
本申请涉及意图识别技术领域,尤其涉及一种基于多标签分类模型实现的法律多意图识别方法和装置。
背景技术
目前对于法律领域,问答系统的实际使用较少。在实际生活中,法律咨询应用非常广泛,对咨询者问题的解答,处理对当前问题的理解,也需要结合实际的咨询者的情况,分析出咨询者的意图,进行解答。
法律咨询场景和一般问答场景相比,其意图划分更加精细,并且问答方式需要融入法律领域的相关能力模型,为了达到这个目的,需要通过把机器学习模型嵌入系统来实现。难点在于,由于法律领域信息很广,意图类别非常精细,同一条文本在不同场景下可能对应不同的意图,或者同时对应多个意图。如何结合对话识别出咨询者当前场景下,准确的,完整的意图,直接对当前法律FAQ问答系统的准确率产生影响。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种基于多标签分类模型实现的法律多意图识别方法,解决了现有意图识别方法难以准确完整的识别咨询者的意图的技术问题,通过使用少量数据对模型进行训练,使得模型能够在法律意图识别中更加客观准确的分析咨询者的意图,提升了识别效率、准确率和全面性。
本申请的第二个目的在于提出一种基于多标签分类模型实现的法律多意图识别装置。
本申请的第三个目的在于提出一种计算机设备。
本申请的第四个目的在于提出一种非临时性计算机可读存储介质。
为达上述目的,本申请第一方面实施例提出了一种基于多标签分类模型实现的法律多意图识别方法,包括:获取原始法律咨询的文本数据和咨询意图,对文本数据进行预处理;将预处理后的文本数据作为输入,将文本数据对应的咨询意图作为标签对GLM模型进行微调训练,得到多分类意图识别模型;获取待识别文本数据,对待识别文本数据进行预处理;将待识别文本数据输入多分类意图识别模型,生成待识别文本数据对应的多个意图。
可选地,在本申请的一个实施例中,对文本数据进行预处理,包括:
使用文本改写模型将文本数据改写为书面文本数据;
通过指代消解模型对书面文本数据进行指代消解,消除歧义文本;
去除经过指代消解的书面文本数据的停用词;
分别对所述去除停用词的书面文本数据提取关键词和文本摘要,得到关键词和文本摘要。
可选地,在本申请的一个实施例中,在使用文本改写模型将文本数据改写为书面文本数据之前,包括:
获取法律口语化文本及其对应语意的书面文本作为训练数据;
将口语化文本作为输入,将书面文本作为标签,对文本改写模型进行训练。
可选地,在本申请的一个实施例中,通过指代消解模型对书面文本数据进行指代消解,消除歧义文本,包括:
使用BERT模型提取实体的嵌入表示;
根据嵌入表示进行实体指代关系预测;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智谱华章科技有限公司,未经北京智谱华章科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211441568.8/2.html,转载请声明来源钻瓜专利网。