[发明专利]一种基于预训练的搜索问答系统有效

专利信息
申请号: 201911341560.2 申请日: 2019-12-20
公开(公告)号: CN111125334B 公开(公告)日: 2023-09-12
发明(设计)人: 申冲;张传锋;朱锦雷;薛付忠;杨帆 申请(专利权)人: 神思电子技术股份有限公司
主分类号: G06F16/332 分类号: G06F16/332;G06F16/951
代理公司: 济南泉城专利商标事务所 37218 代理人: 赵玉凤
地址: 250000 山东省济南市*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 训练 搜索 问答 系统
【权利要求书】:

1.一种基于预训练的搜索问答系统,其特征在于:包括噪音判断模块、QA问答模块、知识匹配模块和响应输出模块;

噪音判断模块通过行业词库和排除词库对用户问题是否属于噪音进行判断,当用户问题包含有行业词且不包含排除词时,被认定为非噪音,进入QA问答模块进行解析,否则被认定为噪音,响应输出模块返回热门推荐问题或者无响应;

QA问答模块包括规则录入单元和规则解析单元,规则解析单元对规则录入单元录入的用户问题进行解析,并判断解析出的用户输入是否必须要准确返回答案,如果是,则响应输出模块输出该问题对应的标准答案,如果否,则将解析出的问题送入知识匹配模块;

知识匹配模块对问题与问答库中的知识进行索引并作出相似度排序,知识索引包括倒排索引和Annoy索引,Annoy索引基于语义模型,语义模型是在预训练模型的基础之上,通过训练数据生成、fine-tuning得到,语义模型最后一层或倒数第二层的输出作为问题向量进行Annoy索引,相似度计算与排序时,综合考虑向量相似度、问题问答频次和文本对齐比率;

计算问题相似度的公式为:

其中,Qu,Qk分别为用户问题和知识库中被索引查询到的问题,S(Qu,Qk)表示用户问题与知识库中被索引查询到的问题的相似度,Vu,Vk分别为用户问题输入到语义模型中输出的问题向量和通过索引查询到的问题向量,Cos(Vu,Vk)表示Vu,Vk两个向量的余弦相似度,γ1、γ2、μ为系数,其中γ1∈(0,0.1),γ2∈(0,0.1),μ∈(0,1);C(Qk)为经日志统计得到的问题Qk的询问次数;L(Qu,Qk)为用户问题与索引问题分词数量差值的绝对值;Max(C(Q1,2...))为问题最大被询问次数;

响应输出模块用于输出响应,响应包括相似问题列表、准确答案、无答案、推荐热门问题四种类型。

2.根据权利要求1所述的基于预训练的搜索问答系统,其特征在于:噪音判断模块的排除词库通过人工筛选和后期日志维护得出,得出噪音判断模块行业词库的过程为:A1)、首先统计训练数据,训练数据来源包括问答知识库和通过网络资源爬取的其他行业数据问题;A2)、使用结巴分词的精确模式进行分词,基于行业问答知识库计算词频TF,基于所有的数据计算词的逆文档频率IDF,基于词频TF、逆文档频率IDF计算词权重W,词频TF、逆文档频率IDF、词权重W的计算公式分别为:

W=TF*IDF;

A3)、根据步骤b计算的词权重选取适当数量的词作为行业词,或者通过设置最低阈值来选取行业词,对行业词中的可拆分短语进行拆分或者将行业词添加到结巴分词的自定义分词中,并提高其权重;

A4)、由专业人员提供若干口语化的简称或其他非常规行业词,形成最终的行业词库。

3.根据权利要求1所述的基于预训练的搜索问答系统,其特征在于:QA问答模块的规则录入单元支持输入逻辑表达式、括号、逻辑嵌套、数字解析和实体录入,规则解析单元针对录入的逻辑表示式,首先将问题与规则表达式进行匹配,形成一个只包括1和0的逻辑表达式,然后通过规则解析算法对逻辑表达式进行计算并输出是否匹配。

4.根据权利要求3所述的基于预训练的搜索问答系统,其特征在于:通过规则解析算法对逻辑表达式进行计算的过程为:将逻辑表达式压入数字栈和运算符栈中进行递归计算,运算优先级为:括号>与操作>或操作,运算规则为:11=1;10=01=0;1|0=0|1=1;1|1=1;0|0=0,其中表示与操作,|表示或操作,逻辑表达式中,用替换与操作符号AND,用|替换或操作符号OR。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于神思电子技术股份有限公司,未经神思电子技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911341560.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top