[发明专利]一种基于相似句搜索的智能机器人闲聊系统及方法在审
| 申请号: | 201810468020.X | 申请日: | 2018-05-16 |
| 公开(公告)号: | CN108763356A | 公开(公告)日: | 2018-11-06 |
| 发明(设计)人: | 庄永军 | 申请(专利权)人: | 深圳市三宝创新智能有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;B25J11/00 |
| 代理公司: | 深圳力拓知识产权代理有限公司 44313 | 代理人: | 龚健 |
| 地址: | 518000 广东省深圳市福田区华*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 知识库 句子 词汇 智能机器人 倒排索引 输入句子 搜索 知识库单元 计算单元 交互体验 接收单元 接收用户 快速定位 权重计算 输出单元 顺序距离 搜索结果 索引空间 信息检索 词性 语句 存储 查找 答案 输出 节约 对话 | ||
本发明公开了一种基于相似句搜索的智能机器人闲聊系统及方法,包括用于接收用户所输入句子的接收单元、用于计算用户所输入句子与问答知识库内所含语句中最接近句子的相似句计算单元、用于输出问答知识库中对应答案的输出单元和用于存储各种情境中对话的问答知识库单元,本发明一方面采用信息检索的方法,在问答知识库中建立倒排索引,能够在倒排索引时,对待查找词汇进行快速定位,同时节约索引空间;另一方面根据词汇的不同词性进行权重计算以及句子字顺序距离对比,能够区分开句子之间所用词汇类似但含义不同的情况,从而得到更准确的相似句子,提供更准确的搜索结果,增强用户的交互体验。
技术领域
本发明涉及人工智能技术领域,具体是一种基于相似句搜索的智能机器人闲聊系统及方法。
背景技术
随着信息技术的发展,智能机器人逐渐成为了人们生活中重要的辅助工具,人们希望拥有更便捷的信息获取方式和更人性化的人机交互体验。但目前人机交互方式并没有发生多大变化,尤其是用户获取信息的方法还不够有效。通过研究聊天机器人相关技术,对于促进人机交互方式的发展有重要意义。
目前聊天机器人中对于用户话语通过简单地考虑单个或者若干个单词的直接匹配,比较表面的处理方式。
发明内容
本发明的目的在于提供一种基于相似句搜索的智能机器人闲聊系统及方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于相似句搜索的智能机器人闲聊系统,包括用于接收用户所输入句子的接收单元、用于计算用户所输入句子与问答知识库内所含语句中最接近句子的相似句计算单元、用于输出问答知识库中对应答案的输出单元和用于存储各种情境中对话的问答知识库单元,所述接收单元连接相似句计算单元,相似句计算单元还分别连接输出单元和问答知识库单元。
作为本发明的进一步技术方案:所述计算用户所输入句子与问答知识库内所含语句中最接近句子具体包含以下步骤:①倒排索引;采用信息检索的方法,在问答知识库中建立倒排索引,倒排索引用来记录知识问答库中所有问句包含的词汇,其以某个词为主键,每一个主键都指向一系列的问句编号,问句编号是代办包含该词的问句的编号,所以倒排索引存储形式为:“‘词汇’--含有该词汇的问句的编号”,通过该方法对问答知识库中所有问句逐一进行扫描,得到全部不重复词汇和其相应的问句编号列表。若果在一个问句中,同一词汇出现了两次,该问句的编号在该词汇下也只记录一次,②计算相似权重:根据词汇的不同词性赋予其不同的权重;③计算句子字顺序距离,在包含输入句子重要词汇最多的问句集合中,取出与输入句子最相似的问句,对其进一步计算字顺序距离,找到与输入句子Distance最小的问句,将该问句在问答知识库中对应的答案输出。
作为本发明的进一步技术方案:所述步骤②具体包括(1)通过倒排索引,找到输入句子中包含的某个词汇对应全部问答知识库中问句编号,根据词汇的词性,给对应词性的问句编号加上相应的权重分数,例如这个词汇为动词,则含该动词词汇的句子编号的权重加1;(2)计算获得步骤(1)词汇对应的同义词,将包含这些同义词的句子编号得分加上词性权重的一半。例如,‘群众’为名词,权重为1,则包含群众的同义词如‘公众’的句子编号得分加上0.5;(3)遍历输入句子的所有词汇,对每个词汇执行(1)和(2)步骤。
作为本发明的进一步技术方案:所述步骤③具体包括Ⅰ、对输入句子即句子A进行遍历,对于A中第i个位置的汉字,若查找到与输入句子最相似的问句即句子B也包含该汉字,并出现在第j个位置,则句子A和句子B的距离Distance=Distance+(i-j)2,若句子重复出现某汉字,则从上一次出现的位置向后查找,以防每次返回的都是第一次出现的位置;Ⅱ、对句子B也进行Ⅰ步骤同样的操作,即对句子B做遍历,对于B中第i个位置的汉字,查找句子A中是否包含,并返回所在的位置。
一种基于相似句搜索的智能机器人闲聊方法,包含以下步骤:
A、用户输入问句;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市三宝创新智能有限公司,未经深圳市三宝创新智能有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810468020.X/2.html,转载请声明来源钻瓜专利网。





