[发明专利]一种基于局部敏感哈希的分布式快速文本分类方法有效

申请号：	201510521022.7	申请日：	2015-08-21
公开（公告）号：	CN105183792B	公开（公告）日：	2017-05-24
发明（设计）人：	杨鹏;顾梁;董永强	申请（专利权）人：	东南大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	南京苏高专利商标事务所(普通合伙)32204	代理人：	李玉平
地址：	210096 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于局部敏感分布式快速文本分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于局部敏感哈希的分布式快速文本分类方法，其特征在于：包括以下步骤：

步骤1，对文本进行预处理：首先依次对文本进行分词、去停用词，以及存储为HDFS文件的操作，然后将所有文本加载到弹性分布式数据集；

步骤2，计算每个词语的n比特哈希值，并根据词频，通过RDD的变换，计算词语的tfidf值，并存储在RDD(tfidf)之中；其中，RDD为弹性分布式数据集，采用MD5哈希算法对文本中的每个词语特征进行哈希运算，每条词语特征对应一个n比特哈希值；

步骤3，根据训练数据集中每个类别下所有文本的词语tfidf值及n比特哈希值，计算每个类别的n比特类别向量及哈希值：首先，对于RDD(tfidf)中的每一行x，遍历x中的每一个元素y，如果元素y的tfidf值大于0，计算元素y的n位哈希值h_y；其次，遍历n位哈希值h_y，如果h_y的当前位为1，将元素y所属类别向量中与当前位所对应分量的数值加上y的tfidf值；否则，将元素y所属类别向量中与当前位所对应的数值减去y的tfidf值；最终得到该类别的n比特类别向量V_c；最后，遍历n比特类别向量V_c，如果V_c的当前分量大于0，则将该类别的n位哈希值h_c的对应位设置为1，否则将h_c的对应位设置为0，最终得到该类别的n比特哈希值h_c；

步骤4，计算待分类文本与每个类别的匹配度，得到文本所属类别：计算待分类文本的特征向量与所有类别的n比特类别向量的相关性或者待分类文本哈希值与类别哈希值之间的相关性，选择与待分类文本的特征向量相关性最高或者与待分类文本哈希值相关性最高的类别作为该待分类文本的类别；

在预处理文本阶段，对每个文本进行分词操作，并在RDD中用每一行表征一个文本，即每一行x表示一个文本，每一个元素y表示文本中的一个词语。

2.根据权利要求1所述的基于局部敏感哈希的分布式快速文本分类方法，其特征在于：在计算词语的哈希值时，可根据实际应用环境的性能需求：算法执行时间与分类准确度，选择不同的哈希比特位数。

3.根据权利要求1所述的基于局部敏感哈希的分布式快速文本分类方法，其特征在于：在计算词语的tfidf值时，采用哈希映射的方法，将所有的文本特征分别映射到2¹⁶维的向量中，从而方便特征的快速哈希和查找；该tfidf值的计算基于Spark并行框架，计算完成之后存储于RDD(tfidf)中，具体步骤为：

1)基于RDD中存储的切词后的文本，统计每个词语的词频，然后计算其tf值，公式表述如下：

$<mrow><mi>t</mi><mi>f</mi><mrow><mo>(</mo><mi>w</mi><mo>,</mo><mi>d</mi><mo>)</mo></mrow><mo>=</mo><mn>0.5</mn><mo>+</mo><mfrac><mrow><mn>0.5</mn><mo>×</mo><mi>f</mi><mrow><mo>(</mo><mi>w</mi><mo>,</mo><mi>d</mi><mo>)</mo></mrow></mrow><mrow><mi>m</mi><mi>a</mi><mi>x</mi><mo>{</mo><mi>f</mi><mrow><mo>(</mo><mi>v</mi><mo>,</mo><mi>d</mi><mo>)</mo></mrow><mo>:</mo><mi>v</mi><mo>&Element;</mo><mi>d</mi><mo>}</mo></mrow></mfrac></mrow>$

其中，f(w,d)表示词语w在文本d中的词频，v表示该文本中出现最频繁的词语；

2)计算每个词语的idf值，公式表述如下：

$<mrow><msub><mi>idf</mi><mrow><mo>(</mo><mi>w</mi><mo>,</mo><mi>D</mi><mo>)</mo></mrow></msub><mo>=</mo><mi>l</mi><mi>o</mi><mi>g</mi><mfrac><mrow><mo>|</mo><mi>D</mi><mo>|</mo></mrow><mrow><mo>|</mo><mo>{</mo><mi>w</mi><mo>&Element;</mo><mi>d</mi><mo>,</mo><mi>d</mi><mo>&Element;</mo><mi>D</mi><mo>}</mo><mo>|</mo><mo>+</mo><mn>1</mn></mrow></mfrac></mrow>$

其中，|D|表示文本集中的文本总数，|{w∈d,d∈D}|为包含词语w的文本数，分母可以处理|{w∈d,d∈D}|为0的情况；

3)计算tfidf值，公式表述如下：

tfidf_(w,D)＝tf(w,d)×idf_w,D。

4.根据权利要求1所述的基于局部敏感哈希的分布式快速文本分类方法，其特征在于：依次计算待分类文本的特征向量与所有类别的n比特类别向量的相关性或者待分类文本哈希值与类别哈希值之间的相关性，选择与待分类文本的特征向量相关性最高或者与待分类文本哈希值相关性最高的类别作为该待分类文本的类别；其中待分类文本的特征向量和类别m的n比特类别向量之间相关性的公式表述如下：

$<mrow><mi>S</mi><mi>i</mi><mi>m</mi><mrow><mo>(</mo><msub><mi>V</mi><mi>x</mi></msub><mo>,</mo><msub><mi>V</mi><mi>m</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msub><mi>Σ</mi><mi>i</mi></msub><mrow><mo>(</mo><msub><mi>V</mi><mrow><mi>x</mi><mo>,</mo><mi>i</mi></mrow></msub><mo>-</mo><msub><mover><mi>V</mi><mo>&OverBar;</mo></mover><mi>x</mi></msub><mo>)</mo></mrow><mrow><mo>(</mo><msub><mi>V</mi><mrow><mi>m</mi><mo>,</mo><mi>i</mi></mrow></msub><mo>-</mo><msub><mover><mi>V</mi><mo>&OverBar;</mo></mover><mi>m</mi></msub><mo>)</mo></mrow></mrow><mrow><msqrt><mrow><msub><mi>Σ</mi><mi>i</mi></msub><msup><mrow><mo>(</mo><msub><mi>V</mi><mrow><mi>x</mi><mo>,</mo><mi>i</mi></mrow></msub><mo>-</mo><msub><mover><mi>V</mi><mo>&OverBar;</mo></mover><mi>x</mi></msub><mo>)</mo></mrow><mn>2</mn></msup></mrow></msqrt><msqrt><mrow><msub><mi>Σ</mi><mi>i</mi></msub><msup><mrow><mo>(</mo><msub><mi>V</mi><mrow><mi>m</mi><mo>,</mo><mi>i</mi></mrow></msub><mo>-</mo><msub><mover><mi>V</mi><mo>&OverBar;</mo></mover><mi>m</mi></msub><mo>)</mo></mrow><mn>2</mn></msup></mrow></msqrt></mrow></mfrac></mrow>$

其中，V_x与V_m分别表示待分类文本的特征向量和类别m的n比特类别向量，V_x,i表示V_x的第i个特征，表示V_x所有特征的平均值；哈希值之间相关性的公式表述如下：

$<mrow><mi>h</mi><mi>a</mi><mi>m</mi><mi>D</mi><mrow><mo>(</mo><msub><mi>h</mi><mi>x</mi></msub><mo>,</mo><msub><mi>h</mi><mi>m</mi></msub><mo>)</mo></mrow><mo>=</mo><msubsup><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></msubsup><msub><mi>h</mi><mi>x</mi></msub><mo>[</mo><mi>i</mi><mo>]</mo><mo>&CirclePlus;</mo><msub><mi>h</mi><mi>m</mi></msub><mo>[</mo><mi>i</mi><mo>]</mo></mrow>$

其中h_x[i]与h_m[i]分别表示待分类文本x和类别m的第i比特哈希值，表示异或运算。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于东南大学，未经东南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201510521022.7/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于局部敏感哈希的分布式快速文本分类方法有效

专利文献下载