[发明专利]一种环境类投诉举报文本自动标注和分类方法在审
| 申请号: | 202110274415.8 | 申请日: | 2021-03-14 |
| 公开(公告)号: | CN113065341A | 公开(公告)日: | 2021-07-02 |
| 发明(设计)人: | 范青武;杨凯;陈光;王子栋 | 申请(专利权)人: | 北京工业大学 |
| 主分类号: | G06F40/247 | 分类号: | G06F40/247;G06F40/289;G06F16/33;G06K9/62;G06N3/02 |
| 代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 张慧 |
| 地址: | 100124 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 环境 投诉 举报 文本 自动 标注 分类 方法 | ||
1.一种环境类投诉举报类文本自动标注和分类的方法,其特征在于:具体包括以下步骤:
S1:从海量无标签数据中进行随机抽样,构成一定规模的样本集;
S2:对样本数据进行预处理,包括中文分词、去停用词、滤除过短文本;
S3:利用Single-Pass算法对描述相似的文本进行聚类得到各种话题簇;
S4:分别计算各簇中每个词语的信息熵,将含信息量大、可以较为明显反映出投诉主要问题所在的词语提取出来,构建领域关键词典;
S5:通过相似度计算,从维基百科语料库中提取出近义词,扩展领域关键词典,进一步收录大量未登录词,提高领域关键词典的覆盖率;
S6:将领域关键词典作为自动分类的依据为大量无标签数据进行标注;
S7:通过深度学习网络TextCNN对数据进行特征提取,进行监督学习,构建分类模型。
2.按照权利要求1所述的一种环境类投诉举报类文本自动标注和分类的方法其特征生在于:,
所述步骤S2的预处理过程包括:
S201针对原始语料,采用Python的第三方库Jieba进行中文分词;
S202引入中文停用词表,去除语料中一些无意义的功能词,提高工作效率;
S203滤除经过步骤S201、S202后长度小于5个字的语句。
3.按照权利要求1所述的一种环境类投诉举报类文本自动标注和分类的方法,其特征在于:
所述步骤S3、S4和S5共同为构建领域特征词典的过程;步骤S3利用Single-Pass算法对少量数据进行聚类,提取粗粒度的特征词,构建种子词库;具体步骤为:
步骤S301,从输入文本序列D=D(d1,d2,...,dn)中选择第一条文本d1作为第一个话题簇c1;
步骤S302,选择第二条文本d2,根据下面公式,计算d2与c1中所有文本的相似度值并求平均数,得到Simavg(d2,c1);
上述公式中,w1i与w2i为分别代表了文档d2和c1中的向量;
步骤S303,若Simavg(d2,c1)大于相似度阈值Th,则将d2归入话题簇c1,跳转至步骤S305,否则跳转至步骤S304;
步骤S304,以d2为基础创建新的话题簇c2,跳转至步骤S306;
步骤S305,取d3,重复步骤S302;
步骤S306,取d3,计算d3与目前所有话题簇,即c1和c2中所有文本的相似度值并求平均数,得到Simavg(d3,c1),Simavg(d3,c2);
步骤S307,若MAX(Simavg(d3,c1),Simavg(d3,c2))≥Th,则将d3归入具有最大相似度值的话题簇中,否则以d3创建新的话题簇;
步骤S308,等待下一篇文档进入;
步骤S4和S5分别为构建、扩充领域特征词典。在本发明中,领域特征词典的作用是实现自动标注功能;
步骤S401,对步骤S3得到的话题簇分别进行词频统计,得到第i个簇中所有词汇的频次,记作ci=c(p1,p2,...,pn),其中pj(j=1,2,...,n)代表该簇中第j个词汇出现的频次,也即TF值;
步骤S402,再根据公式(2)计算ci中所有词汇的IDF值,记作ci=c(q1,q2,...,qn),其中qj(j=1,2,...,n)代表该簇中第j个词汇的IDF值;
其中,N代表语料库中文本的总数,N(x)代表包含词语x的文本总数;
步骤S403,结合每个词语的词频及TF-IDF值,筛选出一批词频高、特征清晰的领域特征词,以这些词作为种子词,构建细胞词库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110274415.8/1.html,转载请声明来源钻瓜专利网。





