[发明专利]一种文本匹配优化方法及装置有效

专利信息
申请号: 202110611429.4 申请日: 2021-06-02
公开(公告)号: CN113051374B 公开(公告)日: 2021-08-31
发明(设计)人: 李伟 申请(专利权)人: 北京沃丰时代数据科技有限公司
主分类号: G06F16/33 分类号: G06F16/33;G06F16/332;G06F16/35;G06F16/36;G06N3/04;G06N3/08
代理公司: 北京路浩知识产权代理有限公司 11002 代理人: 郭亮
地址: 100160 北京市丰台区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 文本 匹配 优化 方法 装置
【说明书】:

发明提供一种文本匹配优化方法及装置,该方法包括:获取待匹配的问题文本内容;将所述问题文本内容输入到训练好的文本匹配模型,得到所述问题文本内容的相似问文本,所述训练好的文本匹配模型是由客服领域的样本语料数据和所述样本语料数据对应的样本知识图谱,对预训练的语言模型进行训练得到的。本发明针对特定的客服领域环境,生成训练语料和知识图谱,并基于该训练语料和知识图谱,应用深度学习模型训练得到文本匹配模型,对客服领域的问题文本进行匹配,从而提高文本匹配准确率。

技术领域

本发明涉及自然语言处理技术领域,尤其涉及一种文本匹配优化方法及装置。

背景技术

在客服领域的智能问答系统中,需要对客户投诉或客户咨询等问题的文本内容,与现有文本语料知识库中已存储的标准问题内容进行匹配,从而根据匹配结果,从这些标准问题内容中分析得到该文本内容对应的回答方案。

现有客服领域在进行文本问题匹配时,主要是基于自然语言处理中的预训练语言模型进行微调,从而实现文本匹配,该模型是学习词语的分布式表示,也就是词语的嵌入(Embedding)过程。这个分布式表示将作为输入,提供给上层特定任务的模型中,根据特定的任务,在训练中调整上层应用模型的参数。预训练语言模型作为自然语言处理的基础模型,在各类应用场景中都发挥巨大的作用,当前主流的预训练模型,包括Bert模型,XLNet模型和Albert模型等。

预训练语言模型的目标是获得一个通用的模型表示,之后根据特定的任务去进行调优。而客服领域的文本匹配,和通用的文本匹配不一样,某些在通用的文本表达里面认为不匹配的内容,在客服领域可以是匹配的,如:“快递为什么还没有发出来”和“快递发货太慢了”,这两句都表示客户在质问快递的发货速度,但是从文本的词语上,这两句话的交集很小,因此,现有客服领域的文本匹配准确率还有待进一步提升。

发明内容

针对现有技术存在的问题,本发明提供一种文本匹配优化方法及装置。

本发明提供一种文本匹配优化方法,包括:

获取待匹配的问题文本内容;

将所述问题文本内容输入到训练好的文本匹配模型,得到所述问题文本内容的相似问文本,所述训练好的文本匹配模型是由客服领域的样本语料数据和所述样本语料数据对应的样本知识图谱,对预训练的语言模型进行训练得到的。

根据本发明提供的一种文本匹配优化方法,所述训练好的文本匹配模型通过以下步骤得到:

根据客服领域的样本语料数据,获取客服与客户之间历史对话记录产生的客户样本问句;

根据所述客户样本问句和预设文本语料知识库,构建训练样本集;

根据所述训练样本集中的样本数据,生成客服领域的样本知识图谱;

根据所述训练样本集和所述样本知识图谱,对预训练的语言模型进行训练,得到训练好的文本匹配模型。

根据本发明提供的一种文本匹配优化方法,所述根据所述客户样本问句和预设文本语料知识库,构建训练样本集,包括:

根据预设文本语料知识库的知识库样本问句和所述客户样本问句,构建样本问句对,并为所述样本问句对标记匹配类型和实体关系,得到第一训练样本;

根据所述知识库样本问句,从所述预设文本语料知识库中获取对应的样本相似问,并根据所述知识库样本问句和所述样本相似问,得到第二训练样本;

根据客户历史问答反馈数据,对所述样本问句对标注正负样本标签,得到第三训练样本;

根据所述第一训练样本、所述第二训练样本和所述第三训练样本,构建训练样本集。

根据本发明提供的一种文本匹配优化方法,所述根据所述训练样本集中的样本数据,生成客服领域的样本知识图谱,包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京沃丰时代数据科技有限公司,未经北京沃丰时代数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110611429.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top