[发明专利]问答匹配方法及装置有效
| 申请号: | 201611271173.2 | 申请日: | 2016-12-30 | 
| 公开(公告)号: | CN106649868B | 公开(公告)日: | 2019-03-26 | 
| 发明(设计)人: | 周建设;袁家政;刘宏哲;刘琴;史金生;刘杰 | 申请(专利权)人: | 首都师范大学 | 
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06K9/62 | 
| 代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 王宁宁 | 
| 地址: | 100000 北*** | 国省代码: | 北京;11 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 问答 匹配 方法 装置 | ||
1.一种问答匹配方法,其特征在于,包括:
提取输入问句文本中的关键词;
根据所述关键词,采用索引过滤的方式从预先建立的问题库中确定目标匹配问句文本;
基于莱温斯坦距离算法,从所述目标匹配问句文本中确定与所述输入问句文本的相似度最高的最佳匹配问句文本;
根据所述最佳匹配问句文本,输出与所述输入问句文本对应的答案文本;
提取输入问句文本中的关键词包括:
对输入问句文本进行分词,生成词序列;
去除所述词序列中的停用词,得到词条;
利用改进后的信息熵公式,计算得到各个词条对应的权重;所述改进后的信息熵公式为:
其中,H(t)为词条t对应的权重;ftk为词条t出现在文本k中的频率,nt为词条t出现在所有的文本集合当中的频率,N为文本集合中文本的总数;
将所有词条按照计算后得到的所述权重的大小进行排序,得到权重排序表;
根据预先设置的提取比例,从所述权重排序表中提取关键词。
2.根据权利要求1所述的方法,其特征在于,根据所述关键词,采用索引过滤的方式从预先建立的问题库中确定目标匹配问句文本包括:
根据所述输入问句文本中的关键词,以及预先建立的问题库中的预设关键词与预设问句文本之间的索引关系,得到所述预设问句文本与所述输入问句文本对应的匹配值;
将所述匹配值大于预设匹配阈值的所述预设问句文本确定为目标匹配问句文本。
3.根据权利要求2所述的方法,其特征在于,根据所述输入问句文本中的关键词,以及预先建立的问题库中的预设关键词与预设问句文本之间的索引关系,得到所述预设问句文本与所述输入问句文本对应的匹配值包括:
将预先建立的问题库中与所述输入问句文本中的关键词相同的预设关键词作为匹配关键词;
根据所述问题库中的预设关键词与预设问句文本之间的索引关系,遍历所述问题库中的预设问句文本,以确定所述预设问句文本中包含的所述匹配关键词的个数;将所述预设问句文本中包含的所述匹配关键词的个数作为所述预设问句文本与所述输入问句文本对应的匹配值。
4.根据权利要求2或3所述的方法,其特征在于,所述问题库的建立包括:
预先设置预设问句文本,以及与所述预设问句文本对应的标准答案文本,并将所述预设问句文本和所述标准答案文本存储于所述问题库中;
为各个所述预设问句文本建立编号标识;
提取各个所述预设问句文本对应的预设关键词;
建立所述预设关键词与所述预设问句文本之间的索引关系;其中,在所述索引关系中,所述预设关键词与包含所述预设关键词的一个或多个预设问句文本的编号标识相对应。
5.根据权利要求1所述的方法,其特征在于,根据最佳匹配问句文本,输出与所述输入问句文本对应的答案文本包括:
判断所述最佳匹配问句文本的相似度是否达到预设相似度阈值;
如果是,从所述问题库中查找所述最佳匹配问句文本对应的标准答案文本,将所述标准答案文本作为所述输入问句文本对应的答案文本输出;
如果否,从互联网查找所述输入问句文本对应的网络答案文本,将所述网络答案文本作为所述输入问句文本对应的答案文本输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于首都师范大学,未经首都师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611271173.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种对象数据的组织方法
 - 下一篇:一种识别网络图中关键节点的分布式方法
 





