[发明专利]基于偏标签学习的古白文识别算法在审

申请号：	202111208472.2	申请日：	2021-10-18
公开（公告）号：	CN113989815A	公开（公告）日：	2022-01-28
发明（设计）人：	张泽清;马泰	申请（专利权）人：	滇西应用技术大学
主分类号：	G06V30/242	分类号：	G06V30/242;G06V10/774;G06V10/764
代理公司：	宁波海曙甬睿专利代理事务所(普通合伙) 33330	代理人：	王广平
地址：	671099 云南省大***	国省代码：	云南;53
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于标签学习白文识别算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了基于偏标签学习的古白文识别算法，包括以下步骤：步骤一：首先在识别装置内部输入识别算法公式：输入D＝{(X_i，S_i)丨1≤i≤m}：偏标记数据训练集，再次输入识别公式：D^*＝{x_i丨1≤i≤m^*}，此为偏标记数据测试集，本发明通过设置的偏标签学习，通过缩小标记范围弱监督数据能够为训练分类算法提供一定的可用信息，并且相比于精确标注的强监督数据，弱监督数据具有获取便利，成本低廉的优点，更符合大数据时代的实际需求，且有效的避免了目前传统的方式是通过专业人员手动对古白文进行识别，这种识别方式不仅很难保证识别的准确率，而且人工手动的识别速度较慢，大大影响了对古白文的识别效率的问题。

技术领域

本发明属于古白文识别技术领域，具体涉及基于偏标签学习的古白文识别算法。

背景技术

古白文为白族参照汉字创造的一种记录白语的文字。始于唐代，流传于民间，多为知识界使用。白文的字体结构分两类：一是借用汉字；二是自造新字。共有4种方法即音读汉字(借汉字的音，表示白语的意思)、训读汉字(按汉字的意思，读白语的音)、直接使用汉语借词(字形、字音、字义都依照汉语)和自造新字(参考汉字的结构体系自造新字)。历史上，白族用白文记述历史，创作文学，留下了一定数量的白文古籍，大致有如下几类：白文经卷、白文残瓦、白文史书、白文碑刻、白文祭文、白文唱本和白文对联等。

目前传统的方式是通过专业人员手动对古白文进行识别，这种识别方式不仅很难保证识别的准确率，而且人工手动的识别速度较慢，大大影响了对古白文的识别效率，因此亟需一种基于偏标签学习的古白文识别算法来对古白文进行自动识别。

发明内容

本发明要解决的技术问题是克服现有的缺陷，提供基于偏标签学习的古白文识别算法，以解决上述背景技术中提出的目前传统的方式是通过专业人员手动对古白文进行识别，这种识别方式不仅很难保证识别的准确率，而且人工手动的识别速度较慢，大大影响了对古白文的识别效率的问题。

为实现上述目的，本发明提供如下技术方案：基于偏标签学习的古白文识别算法，包括以下步骤：

步骤一：首先在识别装置内部输入识别算法公式：输入D＝{(X_i，S_i)丨1≤i≤m}：偏标记数据训练集，再次输入识别公式：D^*＝{x_i丨1≤i≤m^*}，此为偏标记数据测试集；

步骤二：通过两个公式进行正向标记传播权重，再进行反向标记传播权重；

步骤三：通过公式进行初始置信度修正权重，设k为最近邻样本数，T为标签传播迭代次数；

步骤四：输出，y_i为训练集示例x_i消歧结果，其中1≤i≤m，输出y_i^*为测试集示例x_i^*的分类结果，其中1≤i≤m^*。

步骤五：获的每个示例的k近邻关系，根据优化问题求解连接权重w_i；

步骤六：由w_i归一化得传播矩阵W，再根据公式初始化置信度矩阵F⁽⁰⁾；

步骤七：for t＝1to T do；

步骤八：根据公式进行标签传播，得到F⁽ⁱ⁾，再根据公式校正F ⁽ⁱ⁾，得到置信度矩阵F⁽ⁱ⁾；