[发明专利]一种基于ObiBert的甲骨文自动缀合校验方法在审

专利信息
申请号: 202111273361.X 申请日: 2021-10-29
公开(公告)号: CN113961696A 公开(公告)日: 2022-01-21
发明(设计)人: 熊晶;翟雪;陈利平;刘国英;刘永革;韩胜伟;王楠;张展 申请(专利权)人: 安阳师范学院
主分类号: G06F16/335 分类号: G06F16/335;G06F40/242;G06F40/279;G06F40/30;G06N3/04;G06N3/08
代理公司: 湖北创融蓝图知识产权代理事务所(特殊普通合伙) 42276 代理人: 何龙
地址: 455000 *** 国省代码: 河南;41
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 obibert 甲骨文 自动 校验 方法
【权利要求书】:

1.一种基于ObiBert的甲骨文自动缀合校验方法,其特征在于,包括以下步骤:

S1、收集大量甲骨文的释文文本,构建甲骨文Bert语料;

S2、将甲骨文Bert语料中的甲骨文释文文本进行向量化,形成加和向量,得到ObiBert神经网络模型,具体包括Token嵌入、文本嵌入和位置嵌入混合加和;

S3、然后将缀合后的甲骨片上的甲骨文释文文本,通过ObiBert的NSP模型来判断甲骨文碎片自动缀合的结果是否正确;判断方法包括以下步骤:提取自动缀合后的任意两片甲骨上前后衔接的释文得到两句话作为输入,NSP模型添加标记符号并将对应的输出作为释文文本的语义表示,同时对输入的两句话用一个分割符号进行分割,并分别对两句话附加两个不同的释文文本向量以作区分;如模型的输出为正确,则表示两片甲骨的缀合是正确的;若模型的输出为错误,则表示两片甲骨的缀合是错误的。

2.根据权利要求1所述的基于ObiBert的甲骨文自动缀合校验方法,其特征在于,步骤S1具体包括以下步骤:

S11、将获取的甲骨文的释文文本按照字符进行间隔,即一个甲骨字就分成一个词,且去掉释文文本中的标点符号,符合甲骨文原文本身没有句读符号的特点;

S12、构造词典,统计甲骨字的频率,并根据频率将每个甲骨字表示为一个整数id,并记录甲骨字与id之间的映射关系;

S13、按语序将甲骨文的释文文本表示为id序列;

S14、利用word2vec的CBOW神经网络模型对甲骨文释文文本语料进行训练,采用一个大小为3的滑动窗口扫描语料,在每个窗口内,通过上下文预测中心词,并形成训练数据;

S15、训练完成后获得一个参数矩阵,该矩阵的每一行就是词典中对应甲骨字的字向量,行数为词典的大小。

3.根据权利要求1所述的基于ObiBert的甲骨文自动缀合校验方法,其特征在于,还包括以下步骤:

S4、步骤S3中如果缀合的两片被判断为是正确的,则将其作为一个整体,再与其相邻的甲骨片进行组合,重复步骤S3直至自动缀合的结果中所有片均判断为正确为止,或者保留其最多的正确缀合片数组合作为最终缀合结果。

4.根据权利要求1所述的基于ObiBert的甲骨文自动缀合校验方法,其特征在于,还包括以下步骤:

S5、步骤S3中如果缀合的两片被判断为是错误的,则保留其中任一片,另外选择一片与其相邻的甲骨片进行组合,重复步骤S3、S4,直至自动缀合的结果中所有片均判断为正确为止,或者保留其最多的正确缀合片数组合作为最终缀合结果。

5.根据权利要求1所述的基于ObiBert的甲骨文自动缀合校验方法,其特征在于,Token嵌入用于建立甲骨文的字向量,即将甲骨文释文句子中的每个甲骨字作为一个分割单元,然后将这些Token转换为固定维度的向量表示形式;用[CLS]符号标记Token的起始;用[SEP]符号标记Token的结束;考虑到甲骨文的特殊性,用[C]表示残缺或模糊不可识别的甲骨字;用[Un](其中n=1,2,3...)表示暂时还不认识的甲骨字。

6.根据权利要求1所述的基于ObiBert的甲骨文自动缀合校验方法,其特征在于,文本嵌入是针对甲骨文释文句子对的操作;具体实现是:用索引0和1构成向量来表示不同的甲骨文释文句子,即将0赋值给第一个句子的所有Token,从而构成第一个向量;将1赋值给第二个句子的所有Token,从而构成第二个向量;如果只有一个输入句子,则其文本嵌入为所有索引均为0的向量。

7.根据权利要求1所述的基于ObiBert的甲骨文自动缀合校验方法,其特征在于,位置嵌入是在甲骨文释文句子中各个位置上学习一个向量表示来处理文本序列信息;同一个甲骨字在不同的位置出现,用不同的向量表示;具体实现是:设计一个大小合适的查找表,其中第一行是第一个位置上的任意甲骨字的向量表示,第二行是第二个位置上的任意甲骨字的向量表示,依此类推。

8.根据权利要求1所述的基于ObiBert的甲骨文自动缀合校验方法,其特征在于,NSP即为Next Sentence Prediction,NSP的任务是:预测句子B是否是句子A的下一句,NSP的目的是获取句子间的信息。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安阳师范学院,未经安阳师范学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111273361.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top