[发明专利]一种网络媒体平台评论文本分类标注数据纠正方法有效
申请号: | 202010648943.0 | 申请日: | 2020-07-08 |
公开(公告)号: | CN111897953B | 公开(公告)日: | 2022-12-30 |
发明(设计)人: | 刘春;聂烜;郑江滨 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/953;G06F40/232;G06F40/279;G06N3/04;G06N3/08 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 金凤 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络媒体 平台 评论 文本 分类 标注 数据 纠正 方法 | ||
1.一种网络媒体平台评论文本分类标注数据纠正方法,其特征在于,包括以下步骤:
步骤1:确定初步候选相似标注文本集合
对文本进行词性标注,将标注文本中的词语和该词语的词性组合构成词项,获得标注文本的词项序列;
对于两条不同的标注文本,使用Jaccard距离度量两条标注文本词项序列的初步相似度;如果两条标注文本的Jaccard距离大于等于1/3,则两条标注文本初步相似;如果两条标注文本的Jaccard距离小于1/3,则两条标注文本不相似;
对所有标注文本两两计算初步相似度,找到与每条标注文本初步相似的其它标注文本,构成每条标注文本的初步候选相似文本集合;
步骤2:计算标注文本的匹配相似度
标注文本中词项的词项权重由下式计算:
wfull=wt*wc*(1+log10(L)) (1)
式中,wfull表示词项权重,wt表示词语频率权重,wc表示词性权重,L表示词语长度;
标注文本的匹配相似度定义如下:
式中,S2表示两条标注文本的匹配相似度,λ为权重系数,si表示标注文本1的词项权重向量,由标注文本1中各词项通过公式(1)计算的结果组成,n表示标注文本1中的词项数量;ti表示标注文本2的词项权重向量,由标注文本2中各词项通过公式(1)计算的结果组成,m表示标注文本2中的词项数量;ri表示标注文本1和标注文本2中相同词项的词项权重向量,l表示相同词项的数量;标注文本1和标注文本2表示任意两条不同的标注文本;
步骤3:错误标注数据粗纠正
步骤3-1:定义标注类别总数为Nc,标注文本为u,原标注数据为lu,初步候选相似文本集合为W=(w1,w2,......,wN),初步候选相似文本集合中的标注文本对应的标注数据为(l1,l2,......,lN),N为初步候选相似文本集合中的标注文本总数,l1,l2,......,lN∈{1,2,......,Nc};
步骤3-2:采用公式(2)计算标注文本u与其初步候选相似文本集合W中的每个标注文本之间的匹配相似度vi,并将匹配相似度vi与相似度阈值th0比较,若vi>th0,则初步候选标注文本wi与标注文本u相似;若vx≤th0,则初步候选标注文本wi与标注文本u不相似;
步骤3-3:定义所有与标注文本u相似的初步候选标注文本为候选相似文本集合,按从大到小的顺序表示为候选相似文本对应的匹配相似度和原标注数据分别为(v1,v2,......,ve)和e为与标注文本u相似的初步候选标注文本数量;
步骤3-4:定义标注文本u的标注数据置信度为:
若γ<th1,th1为置信度阈值,则标注文本u原标注数据lu错误;统计候选相似文本对应的原标注数据中的标注数据出现频次,若存在频次高于1的标注数据,则将标注文本u的标注数据变为频次最高的标注数据;否则,若没有频次高于1的标注数据,则将标注文本u的标注数据变为
若γ≥th1,标注文本u标注数据不变;
步骤3-5:重复步骤3-2到步骤3-4,对每个标注文本进行处理,完成错误标注数据粗纠正;
步骤4:错误标注数据精细纠正
步骤4-1:将所有标注文本输入深度学习语言神经网络模型得到每个标注文本的深度语义向量;
步骤4-2:如果标注文本经过步骤3处理后标注数据未变化并且该标注文本的初步候选相似文本集合不为空,称为未粗纠正标注文本z;对z进行下述处理:
使用余弦距离度量出z的深度语义向量与z的初步候选相似文本集合中的每个标注文本的深度语义向量之间距离,将此距离定义为深度匹配相似度xi;
步骤4-3:将步骤4-2中得到的深度匹配相似度xi与深度相似度阈值th2比较,若xi>th2,则初步候选标注文本wi与z深度相似;若xi≤th2,则初步候选标注文本wi与z不相似;
步骤4-4:定义所有与z深度相似的初步候选标注文本为候选深度相似文本集合,按从大到小的顺序表示为候选深度相似文本对应的匹配相似度和原标注数据分别为(x1,x2,......,xf)和f为与z相似的初步候选标注文本数量;
步骤4-5:定义标注文本z的标注数据深度置信度为:
式中,lz为z的原标注数据;
若β<th3,th3为深度置信度阈值,则z原标注数据lz错误;统计候选相似文本对应的原标注数据中的标注数据出现频次,若存在频次高于1的标注数据,则将z的标注数据变为频次最高的标注数据;否则,若没有频次高于1的标注数据,则将z的标注数据变为
若β≥th3,z的标注数据不变;
步骤4-6:重复步骤4-3到步骤4-5,对每个未粗纠正标注文本进行处理,完成错误标注数据精细纠正。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010648943.0/1.html,转载请声明来源钻瓜专利网。