[发明专利]数据处理方法及系统和服务器在审
| 申请号: | 201711416280.4 | 申请日: | 2017-12-22 |
| 公开(公告)号: | CN108009155A | 公开(公告)日: | 2018-05-08 |
| 发明(设计)人: | 刘帅 | 申请(专利权)人: | 联想(北京)有限公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 吕雁葭 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数据处理 方法 系统 服务器 | ||
1.一种数据处理方法,包括:
获取包含有指定短语的样本语料;
确定包含在所述样本语料中的所述指定短语的词性特征属性;以及
基于所述指定短语及其词性特征属性,确定出用于对语料进行短语识别的词性组合集。
2.根据权利要求1所述的方法,其中,基于所述指定短语及其词性特征属性,确定出用于对语料进行短语识别的词性组合集包括:
从所述样本语料中提取所述指定短语;
对提取出来的所述指定短语进行分词处理,得到多个短语分词;
将所述多个短语分词进行排列组合,得到多个组合短语;
基于所述指定短语的词性特征属性,确定所述多个组合短语的词性特征属性;以及
基于所述多个组合短语的词性特征属性,确定出用于对语料进行短语识别的词性组合集。
3.根据权利要求2所述的方法,其中,从所述样本语料中提取所述指定短语包括:
从所述样本语料中提取带有标识的短语作为所述指定短语。
4.根据权利要求1所述的方法,其中,所述方法还包括:
在确定出所述词性组合集之后,按词性特征属性条件对所述词性组合集中包含的所有词性组合进行统计;以及
基于统计结果,确定词性组合子集,其中,所述词性组合子集中包含的词性组合为从所述词性组合集中选出的统计结果满足预设条件的词性组合。
5.根据权利要求1所述的方法,其中,所述方法还包括:
在确定出所述词性组合集之后,获取所述词性组合集中包含的至少一个名词性短语的词性组合以及至少一个非名词性短语的词性组合;以及
使用所述至少一个名词性短语的词性组合替换所述至少一个非名词性短语的词性组合中的名词词性部分进行穷举,得到最终的词性组合集。
6.根据权利要求1所述的方法,其中,所述方法还包括:
获取待识别的目标语料;
将所述目标语料进行分词处理,得到多个分词;
针对所述多个分词,确定其中至少一个分词的词性组合;以及
将所述至少一个分词的词性组合与所述词性组合集中的各词性组合进行匹配,以从所述至少一个分词中识别出词性组合命中所述词性组合集中的词性组合的目标分词。
7.根据权利要求6所述的方法,其中,所述方法还包括:
利用预设过滤条件对所述目标分词进行过滤;以及
基于过滤结果,确定出最终的分词识别对象。
8.一种数据处理系统,包括:
获取模块,用于获取包含有指定短语的样本语料;
第一确定模块,用于确定包含在所述样本语料中的所述指定短语的词性特征属性;以及
第二确定模块,用于基于所述指定短语及其词性特征属性,确定出用于对语料进行短语识别的词性组合集。
9.根据权利要求8所述的系统,其中,所述第二确定模块包括:
提取单元,用于从所述样本语料中提取所述指定短语;
分词单元,用于对提取出来的所述指定短语进行分词处理,得到多个短语分词;
组合单元,用于将所述多个短语分词进行排列组合,得到多个组合短语;
第一确定单元,用于基于所述指定短语的词性特征属性,确定所述多个组合短语的词性特征属性;以及
第二确定单元,用于基于所述多个组合短语的词性特征属性,确定出用于对语料进行短语识别的词性组合集。
10.一种服务器,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至5中任一项所述的数据处理方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于联想(北京)有限公司,未经联想(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711416280.4/1.html,转载请声明来源钻瓜专利网。





