[发明专利]一种基于ObiBert的甲骨文自动缀合校验方法在审
| 申请号: | 202111273361.X | 申请日: | 2021-10-29 |
| 公开(公告)号: | CN113961696A | 公开(公告)日: | 2022-01-21 |
| 发明(设计)人: | 熊晶;翟雪;陈利平;刘国英;刘永革;韩胜伟;王楠;张展 | 申请(专利权)人: | 安阳师范学院 |
| 主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F40/242;G06F40/279;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 湖北创融蓝图知识产权代理事务所(特殊普通合伙) 42276 | 代理人: | 何龙 |
| 地址: | 455000 *** | 国省代码: | 河南;41 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 obibert 甲骨文 自动 校验 方法 | ||
本发明公开了一种基于ObiBert的甲骨文自动缀合校验方法,包括以下步骤:S1、收集大量甲骨文的释文文本,在甲骨文专家的直接参与下,形成甲骨文Bert语料;S2、将甲骨文Bert语料中的甲骨文释文文本形成加和向量,具体包括Token嵌入、文本嵌入和位置嵌入的加和,得到ObiBert神经网络模型;S3、然后将缀合后的甲骨片上的甲骨文释文通过ObiBert的NSP模型来判断甲骨文碎片自动缀合的结果是否正确。本发明通过ObiBert判断甲骨文碎片自动缀合的结果是否正确,以期结合甲骨文释文文本从计算机自动缀合的候选结果中筛选出概率最大的可选项,即提出一种判断甲骨文碎片自动缀合结果是否正确的方法,进一步提高甲骨文的应用。
技术领域
本发明属于甲骨文技术领域,具体涉及一种基于ObiBert的甲骨文自动缀合校验方法。
背景技术
甲骨文是中华民族的瑰宝,具有重要的历史价值和科学研究意义。但是甲骨文由于其文物特性和历史、材质等原因往往以碎片形式存在,将这些甲骨文碎片正确地拼接在一起称为甲骨文缀合。实际的甲骨文研究中,研究对象是甲骨文照片、拓片等图像而不是甲骨文实物。传统的甲骨文缀合研究是甲骨文专家通过收集甲骨片图像、复印、裁剪、拼接、校对等步骤完成,只有具备极其深厚的研究积累和缀合经验的专家才能胜任。这极大地阻碍了现代甲骨文研究的进展。自从计算机技术引入甲骨文研究中以来,在很大程度上促进了甲骨文缀合研究的发展,如基于图像处理技术可以实现基于边缘和轮廓的甲骨文碎片自动缀合。但是新的问题是:甲骨文碎片的边缘及轮廓之间并非是严丝合缝的,由于甲骨文材质的磨损以及细小碎片的存在,使得计算机的甲骨碎片自动缀合(以下简称自动缀合)出现大量的候选结果,显然单单使用图像处理技术不足以胜任甲骨片缀合的研究工作。
发明内容
为解决现有技术存在的缺陷,本发明提供一种基于ObiBert的甲骨文自动缀合校验方法。以期结合甲骨文释文文本从计算机自动缀合的候选结果中筛选出概率最大的可选项,即提出一种判断甲骨文碎片自动缀合结果是否正确的方法。
为了解决上述技术问题,本发明提供了如下的技术方案:
本发明提供一种基于ObiBert的甲骨文自动缀合校验方法,包括以下步骤:
S1、收集大量甲骨文的释文文本,构建甲骨文Bert语料;
S2、将甲骨文Bert语料中的甲骨文释文文本进行向量化,形成加和向量,得到ObiBert神经网络模型,具体包括Token嵌入、文本嵌入和位置嵌入混合加和;
S3、然后将缀合后的甲骨片上的甲骨文释文文本,通过ObiBert的NSP模型来判断甲骨文碎片自动缀合的结果是否正确;判断方法包括以下步骤:提取自动缀合后的任意两片甲骨上的释文前后衔接得到两句话作为输入,NSP模型添加标记符号并将对应的输出作为释文文本的语义表示,同时对输入的两句话用一个分割符号进行分割,并分别对两句话附加两个不同的释文文本向量以作区分;如模型的输出为正确,则表示两片甲骨的缀合是正确的;若模型的输出为错误,则表示两片甲骨的缀合是错误的。
作为本发明的一种优选技术方案,步骤S1具体包括以下步骤:
S11、将获取的甲骨文的释文文本按照字符进行间隔,即一个甲骨字就分成一个词,且去掉释文文本中的标点符号,符合甲骨文原文本身没有句读符号的特点;
S12、构造词典,统计甲骨字的频率,并根据频率将每个甲骨字表示为一个整数id,并记录甲骨字与id之间的映射关系;
S13、按语序将甲骨文的释文文本表示为id序列;
S14、利用word2vec的CBOW神经网络模型对甲骨文释文文本语料进行训练,采用一个大小为3的滑动窗口扫描语料,在每个窗口内,通过上下文预测中心词,并形成训练数据;
S15、训练完成后获得一个参数矩阵,该矩阵的每一行就是词典中对应甲骨字的字向量,行数为词典的大小。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安阳师范学院,未经安阳师范学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111273361.X/2.html,转载请声明来源钻瓜专利网。





