[发明专利]智能问答方法与系统在审
| 申请号: | 201810037976.4 | 申请日: | 2018-01-12 |
| 公开(公告)号: | CN108256056A | 公开(公告)日: | 2018-07-06 |
| 发明(设计)人: | 英高海;朱德明;李坤;李冬梅 | 申请(专利权)人: | 广州杰赛科技股份有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
| 代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 梁顺宜;郝传鑫 |
| 地址: | 510310 广东省广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 候选答案 向量 叠加 智能 词向量 相似度 知识库 问答系统 预设 相加 答案 | ||
1.一种智能问答方法,其特征在于,包括:
提取问句的所有主题词;
获取所述问句的每一主题词的词向量;
将所述问句的所有所述主题词的词向量进行相加,作为所述问句的主题词叠加向量;
对于知识库中的每一知识的标题,确定所述问句与任一标题共现的主题词,并获取所述共现的主题词的数量,作为所述任一标题的共现词数;其中,所述知识由标题和正文组成;
将所述共现词数超过预设阈值的所述标题对应的知识确定为候选答案;
计算每一候选答案的正文的主题词叠加向量与所述问句的主题词叠加向量之间的相似度,并将所述相似度最高的候选答案确定为所述问句的最终答案。
2.如权利要求1所述的智能问答方法,其特征在于,所述计算每一候选答案的正文的主题词叠加向量与所述问句的主题词叠加向量之间的相似度,并将所述相似度最高的候选答案确定为所述问句的最终答案,包括:
计算每一候选答案的正文的主题词叠加向量与所述问句的主题词叠加向量的距离;其中,所述距离为余弦距离或欧式距离;
比较每一候选答案的正文的主题词叠加向量与所述问句的主题词叠加向量之间的距离的数值大小,确定所述距离的数值最小的所述正文的主题词叠加向量所对应的候选答案为所述问句的最终答案。
3.如权利要求1所述的智能问答方法,其特征在于,所述方法还包括:
响应于所述知识库的构建指令,获取多个文档;其中,所述文档包括多级标题和各级标题下的正文;
对于每一所述文档,根据所述文档的每一所述标题和所述标题对应的正文组成每一所述知识;
提取每一所述知识的标题的所有主题词;
提取每一所述知识的正文的所有主题词;
根据每一所述文档的每一所述知识、每一所述知识的标题的所有主题词和每一所述知识的正文的所有主题词构建所述知识库。
4.如权利要求3所述的智能问答方法,其特征在于,所述提取每一所述知识的标题的所有主题词,包括:
对所述知识的标题进行分词预处理,以得到若干标题分词结果;
将所述若干标题分词结果中的词语确定为所述标题的主题词。
5.如权利要求3所述的智能问答方法,其特征在于,所述提取每一所述知识的正文的所有主题词,包括:
对所述知识的正文进行分词预处理,以得到若干正文分词结果;
采用textrank算法从所述若干正文分词结果中选取第一预设数量的正文分词结果,并将选取的正文分词结果中的词语确定为所述知识的正文的主题词。
6.如权利要求1所述的智能问答方法,其特征在于,所述提取问句的所有主题词,包括:
对所述问句进行分词预处理,以得到若干问句分词结果;
根据预设规则从所述若干问句分词结果中选取问句分词结果,并将选取的每一问句分词结果中的词语确定为所述问句的主题词。
7.如权利要求6所述的智能问答方法,其特征在于,所述对所述问句进行分词预处理,以得到若干问句分词结果,包括:
根据预设的词典对所述问句进行分词,以得到若干问句初步分词结果;
根据预设的去停用词表对所述若干问句初步分词结果进行去停用词,以得到所述问句的若干问句分词结果。
8.如权利要求1-7任一项所述的智能问答方法,其特征在于,所述方法还包括:
响应于所述候选答案的正文的主题词叠加向量的获取指令,将所述候选答案的正文的每一主题词转化为词向量;
将所述候选答案的正文的所有主题词的词向量进行相加,作为所述候选答案的正文的主题词叠加向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州杰赛科技股份有限公司,未经广州杰赛科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810037976.4/1.html,转载请声明来源钻瓜专利网。





