[发明专利]一种特征提取方法和装置有效
申请号: | 201610202581.6 | 申请日: | 2016-03-31 |
公开(公告)号: | CN107291748B | 公开(公告)日: | 2021-01-15 |
发明(设计)人: | 王国印 | 申请(专利权)人: | 菜鸟智能物流控股有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/332;G06F16/36 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 开曼群岛大开曼岛*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 特征 提取 方法 装置 | ||
本申请涉及数据挖掘技术领域,尤其涉及一种特征提取方法和装置,本申请提供的特征提取方法包括:确定进行分词处理后的地址文本;根据预先设置的取词数和跳词数,从所述进行分词处理后的地址文本中取词,构成所述进行分词处理后的地址文本的特征词串;其中,每个特征词串中包含的所取的词的个数等于所述取词数,且每个特征词串中存在两个相邻的词在所述地址文本中相隔的词数量等于所述跳词数。本申请方案可以对地址文本进行跳词处理,从而有机会得到可区别性较强的特征词串,提升对地址文本的挖掘效果。
技术领域
本申请涉及数据挖掘技术领域,尤其涉及一种特征提取方法和装置。
背景技术
随着数据仓库中文本信息的飞速增长,文本挖掘成为信息领域的研究热点。地址信息是以文本的形式存储在数据仓库中的,由于地址信息在大数据分析中占据非常重要的地位,地址特征挖掘作为文本挖掘的一种,其重要性也越来越明显。
对中文地址文本进行分词处理是进行文本挖掘的基础,这是由中文的特点决定的。比如对中文地址文本“浙江省杭州市余杭区五常街道荆丰社区文一西路”进行分词处理后,可以得到包括浙江省、杭州市、余杭区、五常街道、荆丰社区、文一西路这几个词的地址文本,分词处理后的地址文本中的每个词都有其对应的地址含义(比如单独看浙、江、省这三个字,不具备任何地址含义,但将其组合后的词浙江省就有了对应的地址含义)。在很多情况下,对于一个中文地址文本,若只提取其中的部分词,提取的词在很多情况下仍具有较强的可区别性。
如图1所示,为在文本分类中对中文地址文本进行特征提取的过程。从图1中可以看出,在文本挖掘中,首先对中文地址文本进行分词处理,然后进行特征提取,也即从中文地址文本中进行取词,接下来就是基于取词结果进行分类的过程,因此,在对中文地址文本进行分词处理后,影响中文地址文本挖掘效果的首要因素就是进行特征提取。
目前,进行特征提取的方法主要是基于n元模型(n-gram)来实现的,n-gram的定义为:若地址文本由m个词构成(w1w2w3…wm),其中wi为地址文本中的第i个词,则n-gram定义为:{wiwi+1…wi+n-1|1≤i≤m-n+1}。
比如,当前地址文本由5个词组成,为w1w2w3w4w5,则:
当n=1时,产生的1-gram有w1、w2、w3、w4、w5;
当n=2时,产生的2-gram有w1w2、w2w3、w3w4、w4w5;
当n=3时,产生的3-gram有w1w2w3、,w2w3w4、w3w4w5,;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于菜鸟智能物流控股有限公司,未经菜鸟智能物流控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610202581.6/2.html,转载请声明来源钻瓜专利网。