[发明专利]一种网络媒体平台评论文本分类标注数据纠正方法有效
申请号: | 202010648943.0 | 申请日: | 2020-07-08 |
公开(公告)号: | CN111897953B | 公开(公告)日: | 2022-12-30 |
发明(设计)人: | 刘春;聂烜;郑江滨 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/953;G06F40/232;G06F40/279;G06N3/04;G06N3/08 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 金凤 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络媒体 平台 评论 文本 分类 标注 数据 纠正 方法 | ||
本发明公开了一种网络媒体平台评论文本分类标注数据纠正方法,首先获取文本的词项序列,与其他标注文本进行词项匹配获得初步候选相似标注文本集合;然后定义基于词频、词性和词语长度的词项权重度量方法,获得词项权重向量,实现候选相似标注文本集合的粗提取,实现标注数据的粗纠正;对于经过粗纠正处理步骤的标注文本,若标注文本未进行纠正且存在初步候选相似标注文本集合,则使用深度学习语言模型提取文本的语义向量,计算语义向量相似度,实现标注数据的精细纠正。采用本发明方法能够实现对错误标注数据的自动精确识别和纠正,大量减少人工处理,提高了标注数据的质量。
技术领域
本发明属于自然语言处理领域,具体涉及一种文本标注数据自动纠错方法。
背景技术
大规模深度神经网络在自然语言处理领域的应用带来了文本序列标注、文本分类、问答对话系统等任务性能的飞跃提升。网络媒体平台,如短视频、直播、电商、音乐平台等的用户评论文本分类对于识别用户意图、打击恶意用户具有重要意义。基于大规模深度神经网络的文本分类方法能够充分利用网络媒体平台评论文本数据量大、覆盖面广的特点,实现更加精确的分类。然而深度神经网络模型性能依赖于标注数据的数量和准确性,但人工标注数据往往存在偏差,因此研究自动识别人工标注数据错误的方法具有重要意义。
特定类型的文本分类任务人工标注数据的特点是通常存在大量含义相同或相似的文本,一种有效的人工标注数据纠正方法是提取出相似的标注文本并比较其标注数据,进而筛选出标注数据与其相似标注文本不一致的标注子集进行人工或自动纠正。传统的文本相似性度量方法包括基于字符编辑距离、基于tfidf词项向量、基于主题建模LDA、基于doc2vec句向量等方法。现有的基于词项权重或基于语义特征的文本相似度方法都未能充分挖掘文本的词项和语义特征,不适用于网络媒体平台评论文本覆盖面大、长度短、口语化的特点,进而难以采用这些相似度识别出错误标注的数据。
发明内容
本发明提供了一种网络媒体平台评论文本分类标注数据纠正方法,对于特定标注文本,首先对文本进行词性标注,与词语组合获得文本的词项序列,与其他标注文本进行词项匹配获得该标注文本的初步候选相似标注文本集合;然后定义基于词频、词性和词语长度的词项权重度量方法,获得该标注文本和初步候选相似标注文本的词项权重向量,使用改进词项权重向量匹配方法实现候选相似标注文本集合的粗提取,定义基于相似文本的标注置信度计算方法并根据置信度实现标注数据的粗纠正;对于经过粗纠正处理步骤的标注文本,若标注文本未进行纠正且存在初步候选相似标注文本集合,则使用深度学习语言模型提取文本的语义向量,计算待标注文本与候选相似标注文本的语义向量相似度,根据相似文本的标注置信度计算方法计算标注置信度实现标注数据的精细纠正。
本发明主要包括以下步骤:
步骤1:确定初步候选相似标注文本集合
对文本进行词性标注,将标注文本中的词语和该词语的词性组合构成词项,获得标注文本的词项序列;
对于两条不同的标注文本,使用Jaccard距离度量两条标注文本词项序列的初步相似度;如果两条标注文本的Jaccard距离大于等于1/3,则两条标注文本初步相似;如果两条标注文本的Jaccard距离小于1/3,则两条标注文本不相似;
对所有标注文本两两计算初步相似度,找到与每条标注文本初步相似的其它标注文本,构成每条标注文本的初步候选相似文本集合;
步骤2:计算标注文本的匹配相似度
标注文本中词项的词项权重由下式计算:
wfull=wt*wc*(1+log10(L)) (1)
式中,wfull表示词项权重,wt表示词语频率权重,wc表示词性权重,L表示词语长度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010648943.0/2.html,转载请声明来源钻瓜专利网。