[发明专利]人机智能问答系统的断句识别方法和装置有效
申请号: | 201610262499.2 | 申请日: | 2016-04-25 |
公开(公告)号: | CN107305575B | 公开(公告)日: | 2021-01-26 |
发明(设计)人: | 姜文 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/289 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100080 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 人机 智能 问答 系统 断句 识别 方法 装置 | ||
本申请公开了一种人机智能问答系统的断句识别方法和装置。所述方法的一具体实施方式包括:接收用户输入的当前语句;将所述当前语句输入预先训练的断句识别模型得到所述当前语句为完整语句的第一概率,其中,所述断句识别模型用于根据所述当前语句的汉语言模型对应的概率和循环神经网络语言模型对应的概率确定所述第一概率;若所述第一概率大于预设的第一阈值,则确定所述当前语句为完整语句。该实施方式将汉语言模型和循环神经网络语言模型相融合获得用于确定当前语句为完整语句的概率的断句识别模型,该断句识别模型可以提高人机智能问答系统判断所述当前语句为完整语句的准确率。
技术领域
本申请涉及计算机技术领域,具体涉及互联网技术领域,尤其涉及人机智能问答系统的断句识别方法和装置。
背景技术
随着人机智能技术的发展,越来越多的问答系统采用人机智能技术。现有的人机智能问答系统通常采用一问一答的形式,即默认用户输入为一个完整语句,而后针对该完整语句反馈问题的答案。而实际上人机对话的过程中,用户可能会将一个完整的语句拆成多个断句进行表达,比如用户可能会将“我想问一下东西送到北京需要多久”,拆分成“我想问一下”和“东西送到北京需要多久”两个断句进行输入。针对这种情况,就需要人机智能问答系统能够准确判断出用户输入语句的完整性。
现有的人机智能问答系统通常是采用汉语言语言模型(N-gram模型)通过预测下一个词出现的概率来判断输入语句为完整语句的概率。但是,由于N-gram模型自身具有局限性,N的取值通常只能为2或3,即当前词的出现只与前面1个或2个词相关,导致该模型因信息缺失而不能准确判断输入语句是否为完整语句。
发明内容
本申请的目的在于提出一种改进的人机智能问答系统的断句识别方法和装置,来解决以上背景技术部分提到的技术问题。
第一方面,本申请提供了一种人机智能问答系统的断句识别方法,所述方法包括:接收用户输入的当前语句;将所述当前语句输入预先训练的断句识别模型得到所述当前语句为完整语句的第一概率,其中,所述断句识别模型用于根据所述当前语句的汉语言模型对应的概率和循环神经网络语言模型对应的概率确定所述第一概率;若所述第一概率大于预设的第一阈值,则确定所述当前语句为完整语句。
在一些实施例中,所述方法还包括:基于循环神经网络语言模型,确定所述当前语句的第一个词出现在与所述当前语句相邻的上一句中的第二概率;若所述第二概率大于预设的第二阈值,则确定所述当前语句和与所述当前语句相邻的上一句均为断句;将所述当前语句与所述上一句相结合作为完整语句。
在一些实施例中,所述方法还包括:建立断句识别模型的步骤,包括:获取问题语料库,其中,所述问题语料库包括多个问题语料,所述问题语料为完整语句;对各所述问题语料分词生成多个断句;根据所述断句中包含词的数目以及该断句对应的完整语句包含词的数目,确定各所述断句的分值,其中,所述分值用于表征与之对应的断句为完整语句的概率;确定各所述断句的所述汉语言模型对应的概率和循环神经网络语言模型对应的概率;以各所述断句的所述概率以及该断句的分值为训练样本,训练得到所述断句识别模型。
在一些实施例中,所述对各所述问题语料分词生成多个断句,包括:生成所述断句的步骤,包括:对第一问题语料进行分词处理,获取由n个词组成的第一问题语料,其中,所述第一问题语料为所述问题语料库中的任一问题语料,n为自然数;在所述第一问题语料中取第1~i个词,生成第i个语句,其中,1≤i≤n;生成所述第一问题语料对应的n个断句;基于所述生成所述断句的步骤,生成所述问题语料库中各所述第一问题语料对应的断句。
在一些实施例中,所述方法还包括:若所述第一概率小于或等于预设的第一阈值,则确定所述当前语句为断句;提示用户继续输入的提示信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610262499.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:对象搜索方法及装置
- 下一篇:页面的伪静态处理方法和装置