[发明专利]人机智能问答系统的断句识别方法和装置有效
申请号: | 201610262499.2 | 申请日: | 2016-04-25 |
公开(公告)号: | CN107305575B | 公开(公告)日: | 2021-01-26 |
发明(设计)人: | 姜文 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/289 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100080 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 人机 智能 问答 系统 断句 识别 方法 装置 | ||
1.一种人机智能问答系统的断句识别方法,其特征在于,所述方法包括:
接收用户输入的当前语句;
将所述当前语句输入预先训练的断句识别模型得到所述当前语句为完整语句的第一概率,其中,所述断句识别模型用于根据所述当前语句的汉语言模型对应的概率和循环神经网络语言模型对应的概率确定所述第一概率;
若所述第一概率大于预设的第一阈值,则确定所述当前语句为完整语句;
所述方法还包括:
基于循环神经网络语言模型,确定所述当前语句的第一个词出现在与所述当前语句相邻的上一句中的第二概率;
若所述第二概率大于预设的第二阈值,则确定所述当前语句和与所述当前语句相邻的上一句均为断句;
将所述当前语句与所述上一句相结合作为完整语句。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
建立断句识别模型的步骤,包括:
获取问题语料库,其中,所述问题语料库包括多个问题语料,所述问题语料为完整语句;
对各所述问题语料分词生成多个断句;
根据所述断句中包含词的数目以及该断句对应的完整语句包含词的数目,确定各所述断句的分值,其中,所述分值用于表征与之对应的断句为完整语句的概率;
确定各所述断句的所述汉语言模型对应的概率和循环神经网络语言模型对应的概率;
以各所述断句的所述概率以及该断句的分值为训练样本,训练得到所述断句识别模型。
3.根据权利要求2所述的方法,其特征在于,所述对各所述问题语料分词生成多个断句,包括:
生成所述断句的步骤,包括:对第一问题语料进行分词处理,获取由n个词组成的第一问题语料,其中,所述第一问题语料为所述问题语料库中的任一问题语料,n为自然数;在所述第一问题语料中取第1~i个词,生成第i个语句,其中,1≤i≤n;生成所述第一问题语料对应的n个断句;
基于所述生成所述断句的步骤,生成所述问题语料库中各所述第一问题语料对应的断句。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述第一概率小于或等于预设的第一阈值,则确定所述当前语句为断句;
生成提示用户继续输入的提示信息。
5.一种人机智能问答系统的断句识别装置,其特征在于,所述装置包括:
当前语句接收模块,配置用于接收用户输入的当前语句;
第一概率获取模块,配置用于将所述当前语句输入预先训练的断句识别模型得到所述当前语句为完整语句的第一概率,其中,所述断句识别模型用于根据所述当前语句的汉语言模型对应的概率和循环神经网络语言模型对应的概率确定所述第一概率;
完整语句确定模块,配置用于若所述第一概率大于预设的第一阈值,则确定所述当前语句为完整语句;
第二概率确定模块,配置用于基于循环神经网络语言模型,确定所述当前语句的第一个词出现在与所述当前语句相邻的上一句中的第二概率;若所述第二概率大于预设的第二阈值,则确定所述当前语句和与所述当前语句相邻的上一句均为断句;将所述当前语句与所述上一句相结合作为完整语句。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:
断句识别模型建立模块,配置用于建立断句识别模型,所述断句识别模型建立模块包括:
问题语料库获取单元,配置用于获取问题语料库,其中,所述问题语料库包括多个问题语料,所述问题语料为完整语句;
断句生成单元,配置用于对各所述问题语料分词生成多个断句;
分值确定单元,配置用于根据所述断句中包含词的数目以及该断句对应的完整语句包含词的数目,确定各所述断句的分值,其中,所述分值用于表征与之对应的断句为完整语句的概率;
概率确定单元,配置用于确定各所述断句的所述汉语言模型对应的概率和循环神经网络语言模型对应的概率;
断句识别模型训练单元,配置用于以各所述断句的所述概率以及该断句的分值为训练样本,训练得到所述断句识别模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610262499.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:对象搜索方法及装置
- 下一篇:页面的伪静态处理方法和装置