[发明专利]问答匹配方法及装置有效
申请号: | 201611271173.2 | 申请日: | 2016-12-30 |
公开(公告)号: | CN106649868B | 公开(公告)日: | 2019-03-26 |
发明(设计)人: | 周建设;袁家政;刘宏哲;刘琴;史金生;刘杰 | 申请(专利权)人: | 首都师范大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06K9/62 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 王宁宁 |
地址: | 100000 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 问答 匹配 方法 装置 | ||
本发明提供了一种问答匹配方法及装置,涉及智能问答技术领域,包括一种问答匹配方法,包括:提取输入问句文本中的关键词;根据关键词,采用索引过滤的方式从预先建立的问题库中确定目标匹配问句文本;基于莱温斯坦距离算法,从目标匹配问句文本中确定与输入问句文本的相似度最高的最佳匹配问句文本;根据最佳匹配问句文本,输出与输入问句文本对应的答案文本。本发明可以在较短的时间内输出与输入问句相应的答案,既可缩短问答匹配时长,又可提升准确率。
技术领域
本发明涉及智能问答技术领域,尤其是涉及一种问答匹配方法及装置。
背景技术
随着科技的发展,方便快捷的问答系统也逐渐出现在人们的日常生活中,问答系统可以根据用户的问题自动给出相应的答案,进而实现人机交互。
问答系统的实质为一种在已有的“问题—答案”集合中找到与用户提问相匹配的问题文本,并将其对应的答案呈现给用户。该系统的核心思想为将用户提出的问句与问题库中记录的问题进行相似度计算。现有的问答系统中大多采用基于空间模型的TF-IDF问句相似度计算方法,然而,人机交互中用户所提问句大多较短,而该方法在问句较短时进行关键词提取的准确率不高,并且匹配时间长,在用户提出问题后,需要较长时间才可收到匹配答案,用户体验度不高。
针对上述现有技术中采用的问答匹配的方式准确率较低且用时较长的问题,目前尚未提出有效的解决方案。
发明内容
有鉴于此,本发明的目的在于提供一种问答匹配方法及装置,以缓解现有技术中的问答匹配的方式存在的准确率较低且用时较长的问题。
为了实现上述目的,本发明实施例采用的技术方案如下:
第一方面,本发明实施例提供了一种问答匹配方法,包括:提取输入问句文本中的关键词;根据该关键词,采用索引过滤的方式从预先建立的问题库中确定目标匹配问句文本;基于莱温斯坦距离算法,从目标匹配问句文本中确定与输入问句文本的相似度最高的最佳匹配问句文本;根据该最佳匹配问句文本,输出与输入问句文本对应的答案文本。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,上述提取输入问句文本中的关键词包括:对输入问句文本进行分词,生成词序列;去除词序列中的停用词,得到词条;利用改进后的信息熵公式,计算得到各个词条对应的权重;改进后的信息熵公式为:
其中,H(t)为词条t对应的权重;ftk为词条t出现在文本k中的频率,nt为词条t出现在所有的文本集合当中的频率,N为文本集合中文本的总数;将所有词条按照计算后得到的权重的大小进行排序,得到权重排序表;根据预先设置的提取比例,从权重排序表中提取关键词。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,上述根据关键词,采用索引过滤的方式从预先建立的问题库中确定目标匹配问句文本包括:根据输入问句文本中的关键词,以及预先建立的问题库中的预设关键词与预设问句文本之间的索引关系,得到预设问句文本与输入问句文本对应的匹配值;将匹配值大于预设匹配阈值的预设问句文本确定为目标匹配问句文本。
结合第一方面的第二种可能的实施方式,本发明实施例提供了第一方面的第三种可能的实施方式,其中,上述根据输入问句文本中的关键词,以及预先建立的问题库中的预设关键词与预设问句文本之间的索引关系,得到预设问句文本与输入问句文本对应的匹配值包括:将预先建立的问题库中与输入问句文本中的关键词相同的预设关键词作为匹配关键词;根据问题库中的预设关键词与预设问句文本之间的索引关系,遍历问题库中的预设问句文本,以确定预设问句文本中包含的匹配关键词的个数;将预设问句文本中包含的匹配关键词的个数作为预设问句文本与输入问句文本对应的匹配值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于首都师范大学,未经首都师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611271173.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种对象数据的组织方法
- 下一篇:一种识别网络图中关键节点的分布式方法