[发明专利]一种面向无结构文本智能问答的方法和系统有效
申请号: | 201710985745.1 | 申请日: | 2017-10-20 |
公开(公告)号: | CN107679224B | 公开(公告)日: | 2020-09-08 |
发明(设计)人: | 简仁贤;王海波 | 申请(专利权)人: | 竹间智能科技(上海)有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F40/289;G06N3/04;G06N3/08 |
代理公司: | 北京酷爱智慧知识产权代理有限公司 11514 | 代理人: | 安娜 |
地址: | 200120 上海市浦东新区自由贸*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 结构 文本 智能 问答 方法 系统 | ||
本发明属于计算机智能对话技术领域,提供了一种面向无结构文本智能问答的方法和系统,包括:S1,编码层将获取到的文本和问题分别进行编码,得到文本隐藏向量和问题隐藏向量;S2,信息融合层将所述文本隐藏向量和所述问题隐藏向量融合起来,并得到融合后的关联向量组;S3,解码层根据所述关联向量组对所述文本进行解码,得到所述问题的答案,并输出所述答案。本发明针对无结构文本的提问能直接给出答案,不需要事先建立问答库;对提问的类型没有限制;返回的答案比较精确;数据驱动,有效利用大数据。
技术领域
本发明属于计算机智能对话技术领域,具体涉及一种面向无结构文本智能问答的方法和系统。
背景技术
无结构文本智能问答是指任意给定一段无结构的文本,以及任意一个针对该文本的满足下面条件的提问,即该提问的答案出现在给定的无结构文本中。在这种情况之下,智能问答系统要能够找出相应的答案来回答该提问。
目前无结构文本智能问答的技术主要有四种,但都有其各自的缺点:
基于问答库的方法,难以构建问答库,尤其是在无法提前知晓无结构文本的情形之下。同时,考虑到用户提问的开放性,难以事先列出针对无结构文本的所有问题和答案。
基于检索的方法尤其先天缺陷。首先仅仅根据切分出的句子跟用户提问的相似度来进行回答,有可能答非所问。同时,返回整个句子作为答案,粒度太大,并没有找到最精确的答案。
基于命名实体识别的方法,首先需要判断提问的意图,只有当提问是在询问命名实体的时候才适合回答。因此该方法能够回答的提问有限,对于非命名实体的提问无法回答。同时,当无结构文本中出现多个同类型的命名实体时,该如何选择,以及判断提问意图有可能不准确,这些都会影响该方法的有效性。
基于结构图谱分析的方法,首先需要分析整个无结构文本,将其中的关键元素抽取出来构建图谱。如何分析图谱并进而找出答案,目前还没有很完善的方法,更多的是基于各种规则来获取答案,精确度不是太高。对于长文章和文章中不同地方出现的相同元素会增加图谱分析的难度。
综上所述,目前无结构文本智能问答的技术主要存在以下缺陷:需要事先构建问答库;返回的答案有可能粒度过粗或过细,不是特别精确;能够准确回答的提问类型比较有限;无法有效利用大数据。
发明内容
针对以上问题的不足,本发明提供了一种面向无结构文本智能问答的方法和系统,本发明针对无结构文本的提问能直接给出答案,不需要事先建立问答库;对提问的类型没有限制;返回的答案比较精确;数据驱动,有效利用大数据。
为实现上述目的,本发明提供的一种面向无结构文本智能问答的方法,包括:
S1,编码层将获取到的文本和问题分别进行编码,得到文本隐藏向量和问题隐藏向量;
S2,信息融合层将所述文本隐藏向量和所述问题隐藏向量融合起来,并得到融合后的关联向量组;
S3,解码层根据所述关联向量组对所述文本进行解码,得到所述问题的答案,并输出所述答案。
优选地,所述S1具体方法为:
S11,获取输入的文本和问题;
S12:对所述文本和所述问题进行分词,得到文本词组和问题词组;
S13:将所述文本词组和所述问题词组分别映射到对应的词向量,得到文本词组向量和问题词组向量;
S14:应用双向循环神经网络对所述文本词组向量和所述问题词组向量进行编码,得到文本隐藏向量和问题隐藏向量。
优选地,所述S12具体方法为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于竹间智能科技(上海)有限公司,未经竹间智能科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710985745.1/2.html,转载请声明来源钻瓜专利网。