[发明专利]一种网络媒体平台评论文本分类标注数据纠正方法有效

申请号：	202010648943.0	申请日：	2020-07-08
公开（公告）号：	CN111897953B	公开（公告）日：	2022-12-30
发明（设计）人：	刘春;聂烜;郑江滨	申请（专利权）人：	西北工业大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/953;G06F40/232;G06F40/279;G06N3/04;G06N3/08
代理公司：	西北工业大学专利中心 61204	代理人：	金凤
地址：	710072 ***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种网络媒体平台评论文本分类标注数据纠正方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种网络媒体平台评论文本分类标注数据纠正方法，其特征在于，包括以下步骤：

步骤1：确定初步候选相似标注文本集合

对文本进行词性标注，将标注文本中的词语和该词语的词性组合构成词项，获得标注文本的词项序列；

对于两条不同的标注文本，使用Jaccard距离度量两条标注文本词项序列的初步相似度；如果两条标注文本的Jaccard距离大于等于1/3，则两条标注文本初步相似；如果两条标注文本的Jaccard距离小于1/3，则两条标注文本不相似；

对所有标注文本两两计算初步相似度，找到与每条标注文本初步相似的其它标注文本，构成每条标注文本的初步候选相似文本集合；

步骤2：计算标注文本的匹配相似度

标注文本中词项的词项权重由下式计算：

w_full＝w_t*w_c*(1+log₁₀(L)) (1)

式中，w_full表示词项权重，w_t表示词语频率权重，w_c表示词性权重，L表示词语长度；

标注文本的匹配相似度定义如下：

式中，S₂表示两条标注文本的匹配相似度，λ为权重系数，s_i表示标注文本1的词项权重向量，由标注文本1中各词项通过公式(1)计算的结果组成，n表示标注文本1中的词项数量；t_i表示标注文本2的词项权重向量，由标注文本2中各词项通过公式(1)计算的结果组成，m表示标注文本2中的词项数量；r_i表示标注文本1和标注文本2中相同词项的词项权重向量，l表示相同词项的数量；标注文本1和标注文本2表示任意两条不同的标注文本；

步骤3：错误标注数据粗纠正

步骤3-1：定义标注类别总数为N_c，标注文本为u，原标注数据为l_u，初步候选相似文本集合为W＝(w₁，w₂，......，w_N)，初步候选相似文本集合中的标注文本对应的标注数据为(l₁，l₂，......，l_N)，N为初步候选相似文本集合中的标注文本总数，l₁，l₂，......，l_N∈{1，2，......，N_c}；

步骤3-2：采用公式(2)计算标注文本u与其初步候选相似文本集合W中的每个标注文本之间的匹配相似度v_i，并将匹配相似度v_i与相似度阈值th0比较，若v_i＞th0，则初步候选标注文本w_i与标注文本u相似；若vx≤th0，则初步候选标注文本w_i与标注文本u不相似；

步骤3-3：定义所有与标注文本u相似的初步候选标注文本为候选相似文本集合，按从大到小的顺序表示为候选相似文本对应的匹配相似度和原标注数据分别为(v₁，v₂，......，v_e)和e为与标注文本u相似的初步候选标注文本数量；

步骤3-4：定义标注文本u的标注数据置信度为：

若γ＜th1，th1为置信度阈值，则标注文本u原标注数据l_u错误；统计候选相似文本对应的原标注数据中的标注数据出现频次，若存在频次高于1的标注数据，则将标注文本u的标注数据变为频次最高的标注数据；否则，若没有频次高于1的标注数据，则将标注文本u的标注数据变为

若γ≥th1，标注文本u标注数据不变；

步骤3-5：重复步骤3-2到步骤3-4，对每个标注文本进行处理，完成错误标注数据粗纠正；

步骤4：错误标注数据精细纠正

步骤4-1：将所有标注文本输入深度学习语言神经网络模型得到每个标注文本的深度语义向量；

步骤4-2：如果标注文本经过步骤3处理后标注数据未变化并且该标注文本的初步候选相似文本集合不为空，称为未粗纠正标注文本z；对z进行下述处理：

使用余弦距离度量出z的深度语义向量与z的初步候选相似文本集合中的每个标注文本的深度语义向量之间距离，将此距离定义为深度匹配相似度x_i；

步骤4-3：将步骤4-2中得到的深度匹配相似度x_i与深度相似度阈值th2比较，若x_i＞th2，则初步候选标注文本w_i与z深度相似；若x_i≤th2，则初步候选标注文本w_i与z不相似；

步骤4-4：定义所有与z深度相似的初步候选标注文本为候选深度相似文本集合，按从大到小的顺序表示为候选深度相似文本对应的匹配相似度和原标注数据分别为(x₁，x₂，......，x_f)和f为与z相似的初步候选标注文本数量；

步骤4-5：定义标注文本z的标注数据深度置信度为：

式中，l_z为z的原标注数据；

若β＜th3，th3为深度置信度阈值，则z原标注数据l_z错误；统计候选相似文本对应的原标注数据中的标注数据出现频次，若存在频次高于1的标注数据，则将z的标注数据变为频次最高的标注数据；否则，若没有频次高于1的标注数据，则将z的标注数据变为

若β≥th3，z的标注数据不变；

步骤4-6：重复步骤4-3到步骤4-5，对每个未粗纠正标注文本进行处理，完成错误标注数据精细纠正。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西北工业大学，未经西北工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010648943.0/1.html，转载请声明来源钻瓜专利网。

上一篇：一种适用于石质沟道区管道的生态防护系统
下一篇：一种一体机的无线投屏模块及投屏方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种网络媒体平台评论文本分类标注数据纠正方法有效

专利文献下载