[发明专利]公式的标注方法、装置、设备及存储介质有效
| 申请号: | 202011081425.1 | 申请日: | 2020-10-12 |
| 公开(公告)号: | CN111931020B | 公开(公告)日: | 2021-01-29 |
| 发明(设计)人: | 岳祥;陈柯锦;彭守业;季云英;项莹莹 | 申请(专利权)人: | 北京世纪好未来教育科技有限公司 |
| 主分类号: | G06F16/906 | 分类号: | G06F16/906;G06F16/903;G06F40/237;G06F40/247 |
| 代理公司: | 上海知锦知识产权代理事务所(特殊普通合伙) 31327 | 代理人: | 李丽 |
| 地址: | 100144 北京市海淀区中*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 公式 标注 方法 装置 设备 存储 介质 | ||
1.一种公式的标注方法,其特征在于,包括:
获取待标注公式;
调用公式标注模型,所述公式标注模型在与公式相关学科对应的目标语言表征模型的基础上,通过公式标注数据训练得到;其中,所述目标语言表征模型基于基础语言表征模型至少扩展所述公式相关学科的词汇而得到,所述公式标注数据至少包括样本公式数据及样本公式数据对应的标签;
根据所述公式标注模型,预测所述待标注公式的标签;
其中,所述目标语言表征模型的确定步骤包括:
获取所述基础语言表征模型;
为所述基础语言表征模型添加与所述公式相关学科对应的基础词汇数据,得到第一语言表征模型;
基于所述公式相关学科的学科文本数据以及学科词典数据,为所述第一语言表征模型覆盖与所述公式相关学科的词汇,得到所述目标语言表征模型;
其中,所述根据所述公式标注模型,预测所述待标注公式的标签,包括:将所述待标注公式输入到所述公式标注模型,以使所述公式标注模型预测与所述待标注公式对应的标签。
2.如权利要求1所述的公式的标注方法,其特征在于,所述基础语言表征模型为BERT模型。
3.如权利要求1-2任一项所述的公式的标注方法,其特征在于,还包括:
获取样本公式数据及样本公式数据对应的标签;
将所述样本公式数据及样本公式数据对应的标签作为训练数据,对所述目标语言表征模型进行训练,得到训练的所述公式标注模型。
4.如权利要求3所述的公式的标注方法,其特征在于,所述获取样本公式数据及样本公式数据对应的标签,包括:
从文本数据中提取样本公式数据,并确定所述样本公式数据对应的标签。
5.如权利要求4所述的公式的标注方法,其特征在于,所述从文本数据中提取样本公式数据包括:
从文本数据中提取公式以及公式的上下文;
将提取的公式以及公式的上下文进行拼接,得到样本公式数据。
6.如权利要求5所述的公式的标注方法,其特征在于,所述将提取的公式以及公式的上下文进行拼接,得到样本公式数据,包括:
将提取的公式以及公式的上下文,结合所述基础语言表征模型的固有规范进行拼接,得到样本公式数据;
所述基础语言表征模型的固有规范,包括:
在提取的公式之前添加用于分类预测的第一字符,和/或,在提取的公式之间添加用于分割的第二字符,和/或,在拼接后的样本公式数据添加用于补位的第三字符。
7.如权利要求6所述的公式的标注方法,其特征在于,所述将所述样本公式数据及样本公式数据对应的标签作为训练数据,对所述目标语言表征模型进行训练,得到训练的所述公式标注模型包括:
将所述样本公式数据及样本公式数据对应的标签作为训练数据,对所述目标语言表征模型进行训练,以使得训练得到的公式标注模型中各个标签的参数值达到各个标签对应的参数阈值,所述公式标注模型配置有为公式进行标注的多个标签。
8.如权利要求7所述的公式的标注方法,其特征在于,所述公式标注模型配置有为公式进行标注的多个标签,其中,所述各个标签对应同一参数阈值,或,所述各个标签中的各标签对应不同的参数阈值。
9.如权利要求1所述的公式的标注方法,其特征在于,在所述调用公式标注模型之前,还包括:
提取待标注公式中的字符串;
对所述字符串进行预处理,得到预处理后的字符串;
基于匹配数据确定预处理后的字符串是否成功匹配标签;
若匹配失败,进入执行所述调用公式标注模型的步骤;
若匹配成功,取消执行所述调用公式标注模型的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京世纪好未来教育科技有限公司,未经北京世纪好未来教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011081425.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据访问方法及装置
- 下一篇:一种模块化可重构正交关节链式机器人





