[发明专利]电力设备技术标准文档排序方法、装置、电子设备和介质在审
| 申请号: | 202110820557.X | 申请日: | 2021-07-20 |
| 公开(公告)号: | CN113515620A | 公开(公告)日: | 2021-10-19 |
| 发明(设计)人: | 单波;罗杰;魏文轩;徐森;何亮;姜姗 | 申请(专利权)人: | 云知声智能科技股份有限公司;国网新疆电力有限公司;新疆大学 |
| 主分类号: | G06F16/338 | 分类号: | G06F16/338;G06F16/953;G06F40/194;G06K9/62 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100096 北京市海*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 电力设备 技术标准 文档 排序 方法 装置 电子设备 介质 | ||
本发明涉及一种电力设备技术标准文档排序方法、装置、电子设备和介质,该方法包括:获取一条query和待排序的多个电力设备技术标准文档;将一条query和所述待排序的多个电力设备技术标准文档拼接输入到预先训练的BERT模型中,得到多个文本相似度得分;根据多个文本相似度得分的排序确定待排序的多个电力设备技术标准文档序列。本申请实施例中通过将一条query和所述待排序的多个电力设备技术标准文档拼接输入到预先训练的BERT模型得到多篇电力设备技术标准文档中每篇技术文档与query的文本相似度得分,相似度得分最高的电力设备技术标准文档排在最前面。从而快捷的得到了与query相关的电力设备技术标准文档的排序,不仅节省了人力物力,而且提高了排序的效率。
技术领域
本发明涉及搜索引擎文档排序技术领域,具体涉及一种电力设备技术标准文档排序方法、装置、电子设备和介质。
背景技术
文档排序是搜索引擎的核心部分之一,根据用户输入对检索召回的文档进行排序。电力设备标准领域是垂直领域,缺乏排序模型训练所需的有监督数据集。使用通用领域数据训练的模型很难解决电力领域的问题。
电力设备技术标准文档涉及专业知识,人工标注数据集的难度很大,时间和人力成本很高。
发明内容
本发明提供一种电力设备技术标准文档排序方法、装置、电子设备和介质,能够解决上述时间和人力成本高的技术问题。
本发明解决上述技术问题的技术方案如下:
第一方面,本发明实施例提供了一种电力设备技术标准文档排序方法,包括:
获取一条query和待排序的多个电力设备技术标准文档;
将一条query和待排序的多个电力设备技术标准文档拼接输入到预先训练的BERT模型中,得到多个文本相似度得分;
根据多个文本相似度得分的排序确定待排序的多个电力设备技术标准文档序列。
在一些实施例中,上述一种电力设备技术标准文档排序方法中,预先训练的BERT模型的训练步骤如下:
确定电力设备技术标准文档排序的训练数据;
将电力设备技术标准文档排序的训练数据使用BERT进行建模得到编码后的向量;
根据编码后的向量确定特征向量;
将特征向量输入到全连接层计算文本相似度得分;
微调训练BERT模型确定F1值最高的BERT模型为预先训练的BERT模型。
在一些实施例中,上述一种电力设备技术标准文档排序方法中,确定电力设备技术标准文档排序的训练数据,包括文档结构化和Pairwise数据构造。
在一些实施例中,上述一种电力设备技术标准文档排序方法中,文档结构化包括:
获取原始电力设备技术标准文档;
将原始电力设备技术标准文档中每级标题及其对应的正文拼接为最小存储单元。
在一些实施例中,上述一种电力设备技术标准文档排序方法中,Pairwise数据构造包括:将标题作为query,每级标题及每级标题包含的正文作为正样本,其它标题及其它标题包含的正文作为负样本。
在一些实施例中,上述一种电力设备技术标准文档排序方法中,确定电力设备技术标准文档排序的训练数据,还包括:
将文档结构化和Pairwise数据构造后的数据组织成正样本、负样本、用户输入的标题、样本与用户输入的标题的类别标签1和0形式;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云知声智能科技股份有限公司;国网新疆电力有限公司;新疆大学,未经云知声智能科技股份有限公司;国网新疆电力有限公司;新疆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110820557.X/2.html,转载请声明来源钻瓜专利网。





