[发明专利]一种基于字符串间相似性的电力系统模型搜索排序方法有效
申请号: | 201911423962.7 | 申请日: | 2019-12-31 |
公开(公告)号: | CN111159499B | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | 赵增涛;张豪;李定林;佘俊;陈满;高彦明;彭煜民;贺儒飞;王文辉;向正林;叶复萌;毛允娴;王方;谢天 | 申请(专利权)人: | 南方电网调峰调频发电有限公司 |
主分类号: | G06F16/903 | 分类号: | G06F16/903;G06Q50/06 |
代理公司: | 华进联合专利商标代理有限公司 44224 | 代理人: | 潘宏洲 |
地址: | 510000 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 字符串 相似性 电力系统 模型 搜索 排序 方法 | ||
本发明公开一种基于字符串间相似性的电力系统模型搜索排序方法,包括采集具有相似性的两个字符串;构造两个分别与两个字符串长度相等的权重数组,初始化后计算各个权重数组各元素之和;遍历两个字符串,获取字符在两个字符串中的重现范围,并根据重现情况调整其中一权重数组中字符对应的相似权重值;再根据字符串T2中每个字符在字符串T1的重现范围分别计算每个字符的权重乘积和,由字符的权重乘积和计算两个字符串的相似性,根据相似性值O的大小在电力系统模型搜索中进行字符串排序。本发明显著提升电网模型数据搜索结果排序的准确性。
技术领域
本发明涉及计算机数据处理领域,特别涉及一种基于字符串间相似性的电力系统模型搜索排序方法。
背景技术
电力系统模型数据是电力企业的核心数据,调控、监测、运维、建设等各项生产活动都需要借助模型数据,将各项其它数据关联起来。一个适用于电力系统模型数据搜索的搜索服务,能帮助用户从繁多的模型数据中快速搜索、定位数据将非常有意义。而搜索结果排序是搜索服务中直接影响搜索结果好坏的一个重要环节,其中字符串相似性是排序中的一项重要因素。一般的按关键词命中次数,或者常见的字符串相似性计算方法(比如,cosine距离,Jaro-Winkler距离等)都不能很好的体现电力系统模型数据的相似性特点。这些特点总体可归纳为以下几点:
(1)相同的字词,越多越相似;
(2)相同字词之间的顺序,越相同越相似;
(3)字数越接近越相似;
(4)连续相同的字数,越多越相似;
(5)字符串右侧字符匹配比左段字符匹配具有更高的相似性。
上述第(5)条源自电力模型搜索的一个特点。电力模型的搜索中很大一部分是用根据名称和路径名来搜索功能位置。这部分数据一般是以类型结尾,比如“XXX开关”、“XXX开关间隔”、“XXX开关柜”。用户以名称来搜索时,往往也会在搜索字符串的最后出现类型。当用户输入“ABC开关”搜索时,“ABCD开关”比“ABC开关柜”,“XXX站/35kV/XXX开关间隔/ABC开关”比“XXX站/35kV/ABC开关间隔/XXX开关”更接近期望,更应该排在前面。描述成字符串相似性上的期望即上述第(5)条。本发明所描述的字符串相似性计算方法,能在计算过程和结果中很好体现上述特点。
发明内容
本发明的主要目的是提出一种基于字符串间相似性的电力系统模型搜索排序方法,旨在克服以上问题。
为实现上述目的,本发明提出的一种基于字符串间相似性的电力系统模型搜索排序方法,包括如下步骤:
S10采集电力系统模型中彼此具有相似性的文本分别为字符串T1和字符串T2,字符串T1中第j个字符为T1[j],共有L1个字符;字符串T2中第i个字符为T2[i],共有L2个字符,其中L1≤L2;
S20定义字符串T1中第j个字符的相似权重值为W1[j],得到字符串T1的相似权重数组W1;定义字符串T2中第i个字符的相似权重值为W2[i],得到字符串T2的相似权重数组W2,初始化相似权重数组W1和W2;
S30计算相似权重数组W1初始化的和计算相似权重数组W2初始化的和
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南方电网调峰调频发电有限公司,未经南方电网调峰调频发电有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911423962.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:自主清洁设备及其尘盒监测方法
- 下一篇:一种基于区块链的房产交易资金监管系统