[发明专利]一种数据处理方法及服务器有效
申请号: | 201811147486.6 | 申请日: | 2018-09-29 |
公开(公告)号: | CN109408811B | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 金继民;金宝宝;杨帆;张成松 | 申请(专利权)人: | 联想(北京)有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F16/332;G06F16/36 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 服务器 | ||
本申请公开的一种数据处理方法及服务器,在获得问题语句后,基于问题语句的句子成分确定问题语句所属的问句类别,并在问题语句属于预定问句类别的情况下,对问题语句进行依存句法分析,得到问题语句的各组成元素间的依存信息,进而基于问题语句的各组成元素间的依存信息以及所述问题语句的句子成分,对问题语句进行结构化解析,得到问题语句的结构化信息。通过利用问题语句的各组成元素间的依存信息以及问题语句的句子成分,对问题语句进行结构化解析,可达到较好的解析效果,进而可基于解析结果准确地识别用户问句意图。
技术领域
本发明属于基于大数据的数据处理技术领域,尤其涉及一种数据处理方法及服务器。
背景技术
智能问答系统是在大规模知识处理基础上发展起来的一种面向行业应用的自动服务系统,其为企业与海量用户之间的沟通建立了一种基于自然语言处理的快捷有效的沟通途径。
知识图谱问答系统,即为基于知识图谱的智能问答系统,目前,知识图谱问答系统采用的问句解析方法主要分为三类:语义解析法、信息抽取法和向量建模法。但是,这些方法处理复杂的中文问句的效果并不理想,对问句的解析效果较差,相应地会影响系统对用户问句意图的准确识别,进而降低了问答系统的服务质量。
发明内容
有鉴于此,本发明的目的在于提供一种数据处理方法及服务器,以能够达到较好的问句句子解析效果,进而准确地识别用户问句意图。
为此,本发明公开如下技术方案:
一种数据处理方法,包括:
获得问题语句;
确定所述问题语句的句子成分;
基于所述问题语句的句子成分确定所述问题语句所属的问句类别;
若所述问句类别属于预定问句类别,则对所述问题语句进行依存句法分析,得到所述问题语句的各组成元素间的依存信息;并基于所述问题语句的各组成元素间的依存信息以及所述问题语句的句子成分,对所述问题语句进行结构化解析,得到所述问题语句的结构化信息。
上述方法,优选的,所述确定所述问题语句的句子成分,包括:
确定所述问题语句的各组成元素中的实体及实体类别。
上述方法,优选的,所述确定所述问题语句的句子成分,还包括:确定所述问题语句的各组成元素中的属性及疑问词,所述属性包括实体属性和/或实体类别属性;
所述确定所述问题语句的各组成元素中的实体、实体类别、属性及疑问词,具体包括:
利用预定的实体识别方法,识别所述问题语句的各组成元素中的实体;
利用预定的疑问词识别方法,识别所述问题语句的各组成元素中的疑问词;
将所述问题语句中未被识别的各组成元素分别与预定的实体类别库、属性库进行匹配,得到所述问题语句的各组成元素中的实体类别及属性;所述实体类别库及所述属性库为分别预先对知识图谱进行相对应的实体类别信息抽取以及实体属性和/或实体类别属性信息抽取后所得的信息库;所述知识图谱为一预先基于多个语句样本所构建的包括多个节点的有向图,图中的每个节点对应一个实体或实体类别,每个实体对应零个或以上的实体属性、每个实体类别对应零个或以上的实体类别属性,任意两个节点之间的有向边用于表示边所连接的两个节点之间的关系。
上述方法,优选的,所述问题语句所属的问句类别为简单关系型问题、简单属性型问题及复杂关系属性型问题中的任意一种,其中:
所述简单关系型问题中仅包括一条关系线;
所述简单属性型问题中不包括关系线,只对实体或实体类别的属性进行提问;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于联想(北京)有限公司,未经联想(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811147486.6/2.html,转载请声明来源钻瓜专利网。