[发明专利]一种一对多的混合字符串融合比对方法有效
| 申请号: | 201310746846.5 | 申请日: | 2013-12-30 |
| 公开(公告)号: | CN104008119B | 公开(公告)日: | 2017-09-26 |
| 发明(设计)人: | 童晓阳;甄威;郑永康;姜振超;庄先涛;吴继维;张茜;丁宣文 | 申请(专利权)人: | 西南交通大学;国网四川省电力公司电力科学研究院 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 成都信博专利代理有限责任公司51200 | 代理人: | 张澎 |
| 地址: | 610031 四川省成都市*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种一对多的混合字符串融合比对方法,将一个源字符串从一组待比对字符串中找到最相似或匹配目标字符串。首先用改进的GST*算法,再使用一种偏有序的字符串比对算法POC。结合以上两种算法分别在字符串无序、部分有序匹配方面各自的特点,将两种算法计算得到的匹配度值进行加权融合求得最终的匹配度。另外,针对同义字符串在不同场合下具有不同的表达方式,采用字符串等价替换策略,对源字符串、待比对字符串中同义字符子串等价替换成相同的字符串,大大提高两个字符串的匹配度。通过将源字符串与一组待匹配字符串分别匹配,再将各匹配度进行排序,将最高匹配度的字符串作为目标字符串,实现了一对多的混合字符串的较佳匹配。 | ||
| 搜索关键词: | 一种 一对 混合 字符串 融合 方法 | ||
【主权项】:
一种一对多的混合字符串融合比对方法,对基于汉字聚类特征的由汉字、数字、英文字母组成的混合字符串的相似度进行融合比对,以提高表达字符串的相似的精确度,包括以下主要步骤:1)取出源字符串和一组待匹配字符串;2)读出事先在存储器中构建的字符串等价替换字典,对该组待匹配字符串中部分字符即子串进行等价替换;利用等价替换字典,将在源字符串场合和待匹配字符串场合具有不同描述但含义相同的两种子串进行统一;3)取出源字符串,依次取出等价替换后的该待匹配字符串数组中的一个待匹配字符串;4)利用GST*算法计算源字符串与该待匹配字符串的匹配度a:采用传统GST算法,得到两个字符串中各公共子串,将它们存入公共子串链表中,如果某个公共子串的字符长度与较长字符串字符长度的比值大于或等于0.33,则在计算匹配度时将该公共子串的字符个数乘以权重,该权重为大于1的常数;如果某个公共子串的字符长度与较长字符串字符长度的比值小于0.33、且公共子串的字符个数大于最小匹配长度,则计算匹配度时将该公共子串的字符个数直接带入计算;5)利用偏有序字符串匹配算法POC计算源字符串和待匹配字符串的匹配度b:将两个待匹配的含有汉字、数字和英文字母的混合字符串分别称为源字符串和待匹配字符串,首先,搜索出源字符串与待匹配字符串中相同的字符,记录下它们的个数,其次,以源字符串和待匹配字符串中较长字符串为标准,求匹配度1:以其中较短字符串为标准,求匹配度2:公式(1)、(2)中[]表示取整;再次,分别比较源字符串和待匹配字符串中第1个或第2个数字与字母,最后1个或倒数第2个数字与字母,如果其中1项相等,则调整匹配度2的数值为match_degree2+1:对匹配度1和匹配度2赋予不同的权重0.41、0.59,求源字符串和待匹配字符串的匹配度b:b=match_degree1×0.41+match_degree2×0.59 (3)6)将步骤4)GST*计算所得的匹配度a和步骤5)POC计算所得的匹配度b进行加权融合,融合方法是,如果匹配度a大于匹配度b,则最终匹配度为a;如果匹配度a小于匹配度b,则最终匹配度等于(a+b)/2;7)将源字符串和待匹配字符串数组中每个待匹配字符串计算所获得匹配度进行排序,把最大匹配度对应的待匹配字符串,作为与源字符串最匹配的目标字符串。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南交通大学;国网四川省电力公司电力科学研究院,未经西南交通大学;国网四川省电力公司电力科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310746846.5/,转载请声明来源钻瓜专利网。





