[发明专利]一种特征提取方法和装置有效

申请号：	201610202581.6	申请日：	2016-03-31
公开（公告）号：	CN107291748B	公开（公告）日：	2021-01-15
发明（设计）人：	王国印	申请（专利权）人：	菜鸟智能物流控股有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/332;G06F16/36
代理公司：	北京润泽恒知识产权代理有限公司 11319	代理人：	苏培华
地址：	开曼群岛大开曼岛***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种特征提取方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及数据挖掘技术领域，尤其涉及一种特征提取方法和装置，本申请提供的特征提取方法包括：确定进行分词处理后的地址文本；根据预先设置的取词数和跳词数，从所述进行分词处理后的地址文本中取词，构成所述进行分词处理后的地址文本的特征词串；其中，每个特征词串中包含的所取的词的个数等于所述取词数，且每个特征词串中存在两个相邻的词在所述地址文本中相隔的词数量等于所述跳词数。本申请方案可以对地址文本进行跳词处理，从而有机会得到可区别性较强的特征词串，提升对地址文本的挖掘效果。

技术领域

本申请涉及数据挖掘技术领域，尤其涉及一种特征提取方法和装置。

背景技术

随着数据仓库中文本信息的飞速增长，文本挖掘成为信息领域的研究热点。地址信息是以文本的形式存储在数据仓库中的，由于地址信息在大数据分析中占据非常重要的地位，地址特征挖掘作为文本挖掘的一种，其重要性也越来越明显。

对中文地址文本进行分词处理是进行文本挖掘的基础，这是由中文的特点决定的。比如对中文地址文本“浙江省杭州市余杭区五常街道荆丰社区文一西路”进行分词处理后，可以得到包括浙江省、杭州市、余杭区、五常街道、荆丰社区、文一西路这几个词的地址文本，分词处理后的地址文本中的每个词都有其对应的地址含义(比如单独看浙、江、省这三个字，不具备任何地址含义，但将其组合后的词浙江省就有了对应的地址含义)。在很多情况下，对于一个中文地址文本，若只提取其中的部分词，提取的词在很多情况下仍具有较强的可区别性。

如图1所示，为在文本分类中对中文地址文本进行特征提取的过程。从图1中可以看出，在文本挖掘中，首先对中文地址文本进行分词处理，然后进行特征提取，也即从中文地址文本中进行取词，接下来就是基于取词结果进行分类的过程，因此，在对中文地址文本进行分词处理后，影响中文地址文本挖掘效果的首要因素就是进行特征提取。

目前，进行特征提取的方法主要是基于n元模型(n-gram)来实现的，n-gram的定义为：若地址文本由m个词构成(w₁w₂w₃…w_m)，其中w_i为地址文本中的第i个词，则n-gram定义为：{w_iw_i+1…w_i+n-1|1≤i≤m-n+1}。

比如，当前地址文本由5个词组成，为w₁w₂w₃w₄w₅，则：

当n＝1时，产生的1-gram有w₁、w₂、w₃、w₄、w₅；

当n＝2时，产生的2-gram有w₁w₂、w₂w₃、w₃w₄、w₄w₅；

当n＝3时，产生的3-gram有w₁w₂w_3、，w₂w₃w₄、w₃w₄w_5，；