[发明专利]数据处理方法及系统和服务器在审

专利信息
申请号: 201711416280.4 申请日: 2017-12-22
公开(公告)号: CN108009155A 公开(公告)日: 2018-05-08
发明(设计)人: 刘帅 申请(专利权)人: 联想(北京)有限公司
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 中科专利商标代理有限责任公司 11021 代理人: 吕雁葭
地址: 100085 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据处理 方法 系统 服务器
【说明书】:

本公开提供了一种数据处理方法,该方法包括:获取包含有指定短语的样本语料;确定包含在样本语料中的指定短语的词性特征属性;以及基于指定短语及其词性特征属性,确定出用于对语料进行短语识别的词性组合集。本公开还提供了一种数据处理系统和一种服务器。

技术领域

本公开涉及一种数据处理方法及系统和服务器。

背景技术

在舆情分析中,我们一般都想从某一(或某些)特定行业的用户反馈语料中,得到与该行业产品密切相关的描述类短语,如在关于手机的评论语料中,提取“屏幕的分辨率高”、“电池容量大”等短语。

目前,现有的解决方案是利用自然语言处理技术,并通过特定算法抽取相应的信息来识别语料中的相关短语。

然而,在实现本公开构思的过程中,发明人发现相关技术中至少存在以下缺陷:抽取这些信息的特定算法都需要大量的训练语料,这些训练语料又需要人工去标注短语出现的位置,会带来大量的人力消耗。

针对上述问题,目前相关技术中尚未给出有效的解决方案。

发明内容

本公开的一个方面提供了一种数据处理方法,包括:获取包含有指定短语的样本语料;确定包含在上述样本语料中的上述指定短语的词性特征属性;以及基于上述指定短语及其词性特征属性,确定出用于对语料进行短语识别的词性组合集。

可选地,基于上述指定短语及其词性特征属性,确定出用于对语料进行短语识别的词性组合集包括:从上述样本语料中提取上述指定短语;对提取出来的上述指定短语进行分词处理,得到多个短语分词;将上述多个短语分词进行排列组合,得到多个组合短语;基于上述指定短语的词性特征属性,确定上述多个组合短语的词性特征属性;以及基于上述多个组合短语的词性特征属性,确定出用于对语料进行短语识别的词性组合集。

可选地,从上述样本语料中提取上述指定短语包括:从上述样本语料中提取带有标识的短语作为上述指定短语。

可选地,上述方法还包括:在确定出上述词性组合集之后,按词性特征属性条件对上述词性组合集中包含的所有词性组合进行统计;以及基于统计结果,确定词性组合子集,其中,上述词性组合子集中包含的词性组合为从上述词性组合集中选出的统计结果满足预设条件的词性组合。

可选地,上述方法还包括:在确定出上述词性组合集之后,获取上述词性组合集中包含的至少一个名词性短语的词性组合以及至少一个非名词性短语的词性组合;以及使用上述至少一个名词性短语的词性组合替换上述至少一个非名词性短语的词性组合中的名词词性部分进行穷举,得到最终的词性组合集。

可选地,上述方法还包括:获取待识别的目标语料;将上述目标语料进行分词处理,得到多个分词;针对上述多个分词,确定其中至少一个分词的词性组合;以及将上述至少一个分词的词性组合与上述词性组合集中的各词性组合进行匹配,以从上述至少一个分词中识别出词性组合命中上述词性组合集中的词性组合的目标分词。

可选地,上述方法还包括:利用预设过滤条件对上述目标分词进行过滤;以及基于过滤结果,确定出最终的分词识别对象。

本公开的另一个方面提供了一种数据处理系统,包括:获取模块,用于获取包含有指定短语的样本语料;第一确定模块,用于确定包含在上述样本语料中的上述指定短语的词性特征属性;以及第二确定模块,用于基于上述指定短语及其词性特征属性,确定出用于对语料进行短语识别的词性组合集。

可选地,上述第二确定模块包括:提取单元,用于从上述样本语料中提取上述指定短语;分词单元,用于对提取出来的上述指定短语进行分词处理,得到多个短语分词;组合单元,用于将上述多个短语分词进行排列组合,得到多个组合短语;第一确定单元,用于基于上述指定短语的词性特征属性,确定上述多个组合短语的词性特征属性;以及第二确定单元,用于基于上述多个组合短语的词性特征属性,确定出用于对语料进行短语识别的词性组合集。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于联想(北京)有限公司,未经联想(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711416280.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top