[发明专利]一种基于问题答案对的问答系统实现方法有效
申请号: | 201811338116.0 | 申请日: | 2018-11-12 |
公开(公告)号: | CN109271505B | 公开(公告)日: | 2021-04-30 |
发明(设计)人: | 李舟军;肖武魁;兰忻怡 | 申请(专利权)人: | 深圳智能思创科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33 |
代理公司: | 北京慧泉知识产权代理有限公司 11232 | 代理人: | 李娜 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 问题 答案 问答 系统 实现 方法 | ||
1.一种基于问题答案对的问答系统实现方法,其特征在于:该方法包括如下步骤:问题分析、问题检索和答案选择,具体如下:
S1.问题分析,分析用户提出的问题,从而领会用户的提问意图;该步骤在分析用户的问题时,包括将问题向量化、从问题中提取关键词、关键词拓展的操作;
S2.问题检索,根据问题检索问题答案对的数据库,获得候选问题答案对集合;具体是在问题答案对的数据库上搭建一个搜索引擎,查询结果是按照BM25模型匹配度计算结果排序;
S3.答案选择,训练问题和基于步骤S2得到的候选问题答案对集合,通过对问题与候选问题答案对匹配度评分排序的方式得到最佳答案;
步骤S3答案选择,具体包括以下子步骤:
S3.1提取传统特征:
从统计分布、结构和语义角度提取问题与候选问题、问题与候选答案匹配度特征,其中包括TF-IDF、BM25、TopNOverlap、最长公共子序列LCS、编辑距离ED、语言模型LM以及Word2Vec模型的特征;
S3.2提取深度学习特征:
训练基于卷积神经网络的文本相似度模型,计算问题与候选答案的相关度,其中对基于卷积神经网络的句子建模进行改进,在句子向量矩阵中添加Overlap的特征;
S3.3训练Xgboost:
使用步骤S3.1和S3.2中的算法和模型计算出相似度评分,作为Xgboost排序模型的特征输入,通过Xgboost模型综合所有特征计算得到问题与候选问题答案对的相似度,然后排序得到最佳的答案。
2.根据权利要求1所述的一种基于问题答案对的问答系统实现方法,其特征在于:步骤S1问题分析,具体包括以下子步骤:
S1.1问题向量化;
S1.2提取关键词:抽取出文本中的实体名词,作为关键词;
S1.3关键词拓展:训练词对词的关联概率,得到与关键词相关度高的词语。
3.根据权利要求1所述的一种基于问题答案对的问答系统实现方法,其特征在于:步骤S2问题检索,具体包括以下子步骤:
S2.1相似问题拓展:
将问题中关键词替换为相关度高的词语,将一个原问题拓展为相似问题的集合,相似问题与原问题的相似度由词之间的相关度决定;
S2.2候选问题答案对抽取:
在问题答案对的数据库上搭建一个搜索引擎,通过搜索引擎获得与每个问题相关的候选问题答案对集合,搜索结果的分数是按照BM25模型匹配度计算得到,在这个分数的基础上加权相似问题与原问题的相似度,按新评分重新排序,得到最终的候选问题答案对集合。
4.根据权利要求1所述的一种基于问题答案对的问答系统实现方法,其特征在于:S3.2提取深度学习特征,具体过程如下:
首先,使用word2vec工具预训练词表获得词向量,把词向量连接起来得到句子向量,完成句子表示的建模;然后问题向量和候选答案向量分别经过获取句子的序列信息的卷积层,压缩句子向量维度的池化层,然后构建问题向量和候选答案向量的匹配矩阵,经过连接层将问题和候选答案向量转换为一个向量,最后输入到逻辑斯蒂分类模型,最后得到的结果为问题和候选答案相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳智能思创科技有限公司,未经深圳智能思创科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811338116.0/1.html,转载请声明来源钻瓜专利网。