[发明专利]一种数据处理方法、服务器及计算机可读介质有效
申请号: | 201810629038.3 | 申请日: | 2018-06-19 |
公开(公告)号: | CN109033070B | 公开(公告)日: | 2022-04-15 |
发明(设计)人: | 刘均;刘新;邓思超 | 申请(专利权)人: | 深圳市元征科技股份有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/295;G06F16/903;G06F16/36;G06F16/33 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;熊永强 |
地址: | 518000 广东省深圳市龙*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 服务器 计算机 可读 介质 | ||
本申请实施例公开了一种数据处理方法、服务器及计算机可读介质,其中,该方法可以包括:对接收的由终端发送的原始数据进行分词处理得到第一分词结果;从预设图结构查询出与所述第一分词结果匹配的至少一个关键词对应的节点,根据统计的所述至少一个关键词对应的节点的出现次数以及统计的与所述至少一个关键词对应的节点相关联的父节点的出现次数、与所述至少一个关键词相关联的第一命名实体出现的概率、与所述父节点对应的关键词相关联的第二命名实体出现的概率,计算出各个命名实体出现的概率;根据计算得到的概率,从所述各个命名实体中确定出目标命名实体。采用本申请实施例,可以提高命名实体识别的准确度和速率。
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、服务器及计算机可读介质。
背景技术
在进行关键词匹配时,目前所采用的关键词匹配原则通常就是搜索出语句中与某个特定关键词相关的信息,或者采用条件随机场对语句进行命名实体识别以确定出相关的信息。然而,在关键词匹配过程中,语句中包含了部分词语的简写(缩写)和较长语句被拆分后添加了连接词等情况会干扰命名实体的识别过程,从而导致命名实体识别的准确率较低。
发明内容
本申请实施例提供了一种数据处理方法、服务器及计算机可读介质,可以提高命名实体识别准确率和速率。
第一方面,本申请实施例提供了一种数据处理方法,包括:
接收终端发送的原始数据,并对所述原始数据进行分词处理得到第一分词结果;所述第一分词结果包括一个或者多个关键词;从预设图结构查询出与所述第一分词结果匹配的至少一个关键词对应的节点;提取所述至少一个关键词对应的节点,并统计所述至少一个关键词对应的节点的出现次数以及与所述至少一个关键词对应的节点相关联的父节点的出现次数;根据所述至少一个关键词对应的节点的出现次数、所述父节点的出现次数、与所述至少一个关键词相关联的第一命名实体出现的概率、与所述父节点对应的关键词相关联的第二命名实体出现的概率,计算出各个命名实体出现的概率;根据计算得到的概率,从所述各个命名实体中确定出目标命名实体。
可选地,所述从所述各个命名实体中确定出目标命名实体具体包括:将所述各个命名实体出现的概率最大的命名实体确定为目标命名实体。
可选地,所述方法还包括:创建图结构;所述图结构至少包括第一节点和第二节点;所述第一节点为所述第二节点的父节点;为所述图结构中的第一节点设置第一关键词,为所述第二节点设置第二关键词;所述第二关键词的类别为第一关键词的类别的子类别;将所述第一关键词、与所述第一关键词相关联的命名实体、以及在目标语句中存在第一关键词的情况下,所述目标语句存在与所述第一关键词相关联的命名实体的概率三者之间的对应关系,存储在所述第一节点中或者存储在所述图结构中;将所述第二关键词、与所述第二关键词相关联的命名实体、以及在目标语句中存在第二关键词的情况下,所述目标语句存在与所述第二关键词相关联的命名实体的概率三者之间的对应关系,存储在所述第二节点中或者存储在所述图结构中。
可选地,所述方法还包括:对样本数据中的每条语句进行分词处理得到第二分词结果;所述第二分词结果包括一个或多个关键词;所述样本数据中标记了命名实体;将所述第二分词结果中与图结构中相同的关键词定义为目标关键词;所述目标关键词至少包括所述第一关键词或所述第二关键词;对所述每条语句中的各个命名实体进行统计以计算各个命名实体出现的概率;所述各个命名实体包括目标命名实体;计算在第一目标语句中存在所述目标命名实体的情况下,所述第一目标语句中存在目标关键词的概率;根据所述目标关键词出现的概率以及所述目标命名实体出现的概率计算出在第二目标语句中存在目标关键词的情况下,所述第二目标语句中存在所述目标命名实体的概率。
可选地,所述对所述每条语句中的命名实体进行统计以计算出各个命名实体出现的概率,包括:统计所述样本数据中包含目标命名实体的语句的数量,并统计所述样本数据中总的语句的数量;将所述包含目标命名实体的语句的数量与所述总的语句的数量的比值作为目标命名实体出现的概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市元征科技股份有限公司,未经深圳市元征科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810629038.3/2.html,转载请声明来源钻瓜专利网。