[发明专利]电力设备技术标准文档排序方法、装置、电子设备和介质在审
| 申请号: | 202110820557.X | 申请日: | 2021-07-20 |
| 公开(公告)号: | CN113515620A | 公开(公告)日: | 2021-10-19 |
| 发明(设计)人: | 单波;罗杰;魏文轩;徐森;何亮;姜姗 | 申请(专利权)人: | 云知声智能科技股份有限公司;国网新疆电力有限公司;新疆大学 |
| 主分类号: | G06F16/338 | 分类号: | G06F16/338;G06F16/953;G06F40/194;G06K9/62 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100096 北京市海*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 电力设备 技术标准 文档 排序 方法 装置 电子设备 介质 | ||
1.一种电力设备技术标准文档排序方法,其特征在于,包括:
获取一条query和待排序的多个电力设备技术标准文档;
将所述一条query和所述待排序的多个电力设备技术标准文档拼接输入到预先训练的BERT模型中,得到多个文本相似度得分;
根据所述多个文本相似度得分的排序确定待排序的多个电力设备技术标准文档序列。
2.根据权利要求1所述的一种电力设备技术标准文档排序方法,其特征在于,所述预先训练的BERT模型的训练步骤如下:
确定电力设备技术标准文档排序的训练数据;
将所述电力设备技术标准文档排序的训练数据使用BERT进行建模得到编码后的向量;
根据所述编码后的向量确定特征向量;
将所述特征向量输入到全连接层计算文本相似度得分;
微调训练BERT模型确定F1值最高的BERT模型为预先训练的BERT模型。
3.根据权利要求1所述的一种电力设备技术标准文档排序方法,其特征在于,所述确定电力设备技术标准文档排序的训练数据,包括文档结构化和Pairwise数据构造。
4.根据权利要求3所述的一种电力设备技术标准文档排序方法,其特征在于,所述文档结构化包括:
获取原始电力设备技术标准文档;
将所述原始电力设备技术标准文档中每级标题及其对应的正文拼接为最小存储单元。
5.根据权利要求3所述的一种电力设备技术标准文档排序方法,其特征在于,所述Pairwise数据构造包括:将标题作为query,每级标题及所述每级标题包含的正文作为正样本,其它标题及所述其它标题包含的正文作为负样本。
6.根据权利要求3所述的一种电力设备技术标准文档排序方法,其特征在于,所述确定电力设备技术标准文档排序的训练数据,还包括:
将所述将文档结构化和Pairwise数据构造后的组织成正样本、负样本、用户输入的标题、样本与用户输入的标题的类别标签1和0形式;
将所述正样本、所述负样本分别与用户输入的query通过[SEP]字符拼接,并在首尾加入[CLS]字符和[SEP]字符得到所述电力设备技术标准文档排序的训练数据。
7.根据权利要求2所述的一种电力设备技术标准文档排序方法,其特征在于,所述确定F1值最高的BERT模型为预先训练的BERT模型,包括:使用交叉熵作为BERT模型的损失函数,使用反向传播算法更新网络参数,选择F1值最高的模型为预先训练的BERT模型,损失函数表示为:
其中,N为样本个数,i为数据集中第i(1≤i≤N)条样本,yi为样本真实标签,y′i为模型预测的概率。
8.一种电力设备技术标准文档排序装置,其特征在于,包括:
获取模块:用于获取一条query和待排序的多个电力设备技术标准文档;
拼接模块:用于将所述一条query和所述待排序的多个电力设备技术标准文档拼接输入到预先训练的BERT模型中,得到多个文本相似度得分;
确定模块:用于根据所述多个文本相似度得分的排序确定待排序的多个电力设备技术标准文档序列。
9.一种电子设备,其特征在于,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如权利要求1至7任一项所述一种电力设备技术标准文档排序方法。
10.一种计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如权利要求1至7任一项所述一种电力设备技术标准文档排序方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云知声智能科技股份有限公司;国网新疆电力有限公司;新疆大学,未经云知声智能科技股份有限公司;国网新疆电力有限公司;新疆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110820557.X/1.html,转载请声明来源钻瓜专利网。





