[发明专利]一种基于模板匹配和深度学习的知识库问答系统构建方法在审
申请号: | 202110098202.4 | 申请日: | 2021-01-25 |
公开(公告)号: | CN113157873A | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 张涵 | 申请(专利权)人: | 北京海致星图科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/36;G06F40/205;G06F40/279;G06N3/04;G06N3/08 |
代理公司: | 北京化育知识产权代理有限公司 11833 | 代理人: | 尹均利 |
地址: | 100089 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 模板 匹配 深度 学习 知识库 问答 系统 构建 方法 | ||
1.一种基于模板匹配和深度学习的知识库问答系统构建方法,其特征在于,包括如下步骤:
S1:设计和构建问答模板,设计问答模板时,必须具有问答完备性,用户可能问到的问题都必须含有对应的一个问答模板,这部分要求设计人员对业务问题的充分调研;
S2:设计和构建本体图谱,根据实体数据和关系数据、场景业务和意图模板来设计本体图谱;
S3:构建标记层,将公司名称、时间、地点业务所涉及到的实体标记为对应的标记形成标记层;
S4:构建触发层,使用触发机制,缩小匹配范围,触发机制分为意图触发和问题触发,用户输入不规范、用户输入过于灵活,用户输入的部分词语同义词过多,使用意图分类作为触发机制的补充手段,对问句进行意图模型分类,打一个标签,需根据业务提前设计好标签和对应问题分类,该部分使用TextCNN模型来预测分类;
S5:构建匹配层,定义正则表达式变量以及导入词典集合文件;
S6:构建对齐层,包括ES搜索和模型预测;
S7:构建查询层,将实例化的模板查询语句提交图数据库进行查询,图查询语句所返回的查询结果类型统一为:Array[Map[String,Any]];
S8:构建装饰层,对查询结果进行解析并装饰。
2.根据权利要求1所述的基于模板匹配和深度学习的知识库问答系统构建方法,其特征在于:在步骤S3中,当问句中可能含有两个有顺序的实体,则训练标注模型来识别有顺序的索引1实体和索引2实体。
3.根据权利要求1所述的基于模板匹配和深度学习的知识库问答系统构建方法,其特征在于:在步骤S4中,TextCNN模型中的TextCNN神经网络主要以CNN网络对文本信息进行特征的抽取,把词向量的维度和文本的长度当成另一个维度用于构成一个矩阵,CNN网络用于在文本进行卷积核的计算或者文本的特征抽取,将TextCNN使用预先训练好的词向量作Embedding Layer,将数据集里的词表征成一个向量,用于得到一个嵌入矩阵MM,。
4.根据权利要求1所述的基于模板匹配和深度学习的知识库问答系统构建方法,其特征在于:所述正则表达式变量的定义为:能够重复使用正则表达式,方便编写正则模板;导入词典集合文件为定义一个正则表达式变量表示文件中的词语皆可表示;如果匹配到多个正则,使用优先级或文本匹配作为正则匹配的补充手段,如果匹配不到正则,使用文本匹配作为正则匹配的补充手段,该部分使用BERT模型编码句子向量,然后使用COS余弦计算句子之间的相似度。
5.根据权利要求4所述的基于模板匹配和深度学习的知识库问答系统构建方法,其特征在于:所述BERT模型具体如下:
BERT模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的Representation,即:文本的语义表示,然后将文本的语义表示在特定NLP任务中作微调,最终应用于该NLP任务。
6.根据权利要求1所述的基于模板匹配和深度学习的知识库问答系统构建方法,其特征在于:GQ类型包括查询实体集合和查询关系集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京海致星图科技有限公司,未经北京海致星图科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110098202.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种半导体器件焊料喷涂装置
- 下一篇:一种主动式智能节水方法及其设备