[发明专利]基于电力词典的文本处理方法有效

专利信息
申请号: 201710655843.9 申请日: 2017-08-03
公开(公告)号: CN107577713B 公开(公告)日: 2018-09-11
发明(设计)人: 邹保平;陈宏;黄文思;林佳能;苏志勇 申请(专利权)人: 国网信通亿力科技有限责任公司
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 北京锺维联合知识产权代理有限公司 11579 代理人: 赵中璋
地址: 361009 福建省厦门市思*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 电力 词典 文本 处理 方法
【说明书】:

发明提供了一种基于电力词典的文本处理方法,包括以下步骤:步骤S100,获取电力系统使用的包括文本数据的文件,对该文件进行数据清理,从而获得清理后的文本数据;步骤S200,根据通用词典和所述电力词典,对所述文本数据进行分词处理,获得分词向量;步骤S300,根据电力词汇分词向量和通用词汇分词向量,计算电力文本标志,形成文本元数据。通过使用电力词典进行分词及后续处理,本发明能够获得有效的元数据,从而为文本相似计算、文档分类、聚类、文本检索等提供支撑。本发明还提供了一种文本检索方法。

技术领域

本发明涉及一种信息处理方法,尤其设计一种文本处理方法。

背景技术

近年来,随着我国工业领域,尤其是电力领域中各大型企业信息化水平的逐步提升,建设了各具特色的企业信息系统,不同程度地实现了对企业核心资源和主要经营活动的现代化管理。在信息化建设过程中,以文本形式存在的文档在各个信息化系统中存储量逐年递增,而这些文档在多数平台系统中仍然按业务条线、按系统方式存储、管理,不能被充分利用。尤其是面对诸如办公文档(如Word、Excel、WPS文档)等非结构化数据时,利用效率更为低下。因此,如何有效地利用自然语言处理,分析挖掘信息系统中海量文本数据蕴含的信息及价值,必定会成为未来大数据提升行业生产力的重要课题。

传统的文本处理技术在电力行业的非结构化文档分析中效果不尽如人意,例如电力行业具有其特有的专有名词,在分词过程中会造成这些名词被切分,进而影响下一步的特征选择等过程,此外传统的特征选择方法其结果也并不显著,常用的分词权重算法在电力行业中结果仍有很大提升空间,影响文本相似计算、文档分类、聚类、文本检索等结果。

发明内容

为提高电力行业的文本利用效率,本发明提供了一种基于电力行业的文本处理方法,包括以下步骤:步骤S100,获取电力系统使用的包括文本数据的文件,对该文件进行数据清理,从而获得清理后的文本数据;步骤S200,根据所述电力词典,对所述文本数据进行分词处理,获得多个分词;步骤S300,计算所述多个分词中每个分词的权重;步骤S400,将每个分词及其权重组成所述文件的元数据。

通过使用电力词典进行分词及后续处理,本发明能够获得有效的元数据,从而为文本相似计算、文档分类、聚类、文本检索等提供支撑。

本发明还提供了一种文本检索方法。

附图说明

图1是本发明的方法流程图;

图2是根据本发明的繁体简体变换示意图;

图3是根据本发明的文本清理前后的效果示意图;

图4是根据本发明的部分电力词典的词汇示意图;

图5是根据本发明的停用词示意图;

图6是根据本发明的部分分词结果的词表映射示意图;

图7是根据本发明的检索方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,将结合附图对本发明作进一步地详细描述。这种描述是通过示例而非限制的方式介绍了与本发明的原理相一致的具体实施方式,这些实施方式的描述是足够详细的,以使得本领域技术人员能够实践本发明,在不脱离本发明的范围和精神的情况下可以使用其他实施方式并且可以改变和/或替换各要素的结构。因此,不应当从限制性意义上来理解以下的详细描述。

如图1所示,本发明提供了一种基于电力词典的文本处理方法,包括以下步骤:步骤S100,获取电力系统使用的包括文本数据的多个文件,对每个文件进行数据清理,从而获得清理后的文本数据。显然,文件的数量很多,对文件进行数据清理,其含义是对每一个文件均进行数据清理。

进一步的,步骤S100主要包括以下步骤:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网信通亿力科技有限责任公司,未经国网信通亿力科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710655843.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top