[发明专利]一种古文异文自动识别系统和方法在审

申请号：	202111292308.4	申请日：	2021-11-03
公开（公告）号：	CN114004216A	公开（公告）日：	2022-02-01
发明（设计）人：	黄水清;梁媛;王东波	申请（专利权）人：	南京农业大学
主分类号：	G06F40/205	分类号：	G06F40/205;G06F40/279;G06F40/30
代理公司：	成都方圆聿联专利代理事务所(普通合伙) 51241	代理人：	邓永红
地址：	210095 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种古文异文自动识别系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种古文异文自动识别系统和方法，包括：古文异文数据集构建模块；古文异文特征转换模块；古文异文模型训练模块；古文异文模型效果评估模块。步骤为：S1、选取合适的语料作为训练集，并人工校对并对其处理；S2、编写模型训练程序，调整模型参数，对训练集进行迭代训练；S3、对实验结果进行评估，并将最优的模型进行保存；S4、搭建模型调用接口，从而方便用户进行直接使用，实现对古文异文的识别。本发明的优点是：通过计算机实现异文的自动发掘，可以从更大规模的语料中获取有效信息，极大的降低了人力物力，减小工作量。

技术领域

本发明涉及计算机软件技术领域，特别涉及一种基于深度学习模型SIKU-BERT 开发的古文异文自动识别方法。

背景技术

异文是古籍中的常见现象，也是重要研究对象。传统的古籍校勘是从大量古籍文献中人工查找校勘资料包括异文等，不仅耗时、费力、工作量大，而且找到的数据未必精准全面。通过计算机实现异文的自动发掘，可以从更大规模的语料中获取有效信息。并且，结合异文自动发掘的校勘方式可以实现穷尽式检索，对于古籍他校法具有重要意义，为新时期古籍校勘硏究提供了新思路和新方法。

发明内容

本发明针对现有技术的缺陷，提供了一种古文异文自动识别系统和方法。

为了实现以上发明目的，本发明采取的技术方案如下：

一种古文异文自动识别系统，包括：

古文异文数据集构建模块，用于实现训练集及测试集的读取及加载；

古文异文特征转换模块，用于将异文句子对转为语义提取，并保存为词向量形式；

古文异文模型训练模块，用于异文句子的文本匹配模型迭代训练；

古文异文模型效果评估模块，用于对古文异文识别模型的效果进行评估。

本发明还公开了一种古文异文自动识别方法，包括如下步骤：

S1、通过选取古文语料为训练所需的语料，对其进行清洗、去重、校对的预处理，之后按标点符号将原始文本切分为短句，并对语料进行标注，选取意义相同的句子作为句子对，并标明其出现位置，采用“0-1”分类方式对句子对进行标注，0表示非异文句子对，1表示异文句子对，获得具有标签的句子对作为训练语料。

S2、基于PyTorch深度学习框架编写模型训练程序，并加载古文领域深度学习模型SIKU-BERT对文本进行处理，调整模型到合适参数，对训练集进行迭代训练，直至训练结束。

S3、对实验所得的模型性能进行评价，采用的指标为准确率(Precision)、召回率(Recall)、F值(F-Measure)，评估完成后，选择效果最优的模型进行保存。

S4、搭建模型调用接口，实现用户直接输入到对古文异文的自动识别。

优选的，所述步骤S1中古文语料来源为“中国哲学书电子化计划”网站上《春秋公羊传》《春秋穀梁传》《春秋左传》的原文数据。

优选的，所述步骤S1中，异文标注规范主要为①语义完全对应且文本相似度较高；②部分语义及文本对应；③语义相似度高而文本相似度较低，但包含同义词等；④文本几乎无相似之处，但表达同事件；⑤部分成分存在省略或简写。符合上述五点规范中的任意一点标注为异文，即标注为1。

优选的，所述步骤S1中，具体数据处理后格式为“标签句子a句子b”，其中以分隔符“\t”进行分割，并将处理后含有标签的句子对作为训练语料进行训练。

优选的，所述步骤S2中，SIKU-BERT的参数设置为12-layer，768-hidden， 12-heads，110M parameters，it模型共12层，隐层768维，12头模式，110M 个参数。最大截断长度256，训练批次大小32，学习率2e-5，迭代次数10.0次。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京农业大学，未经南京农业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111292308.4/2.html，转载请声明来源钻瓜专利网。

上一篇：一种冬枣果酒制备前处理装置
下一篇：与纸尿裤结合的可穿戴集成式生物传感器及其制备方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种古文异文自动识别系统和方法在审

专利文献下载