[发明专利]一种一对多的混合字符串融合比对方法有效
| 申请号: | 201310746846.5 | 申请日: | 2013-12-30 | 
| 公开(公告)号: | CN104008119B | 公开(公告)日: | 2017-09-26 | 
| 发明(设计)人: | 童晓阳;甄威;郑永康;姜振超;庄先涛;吴继维;张茜;丁宣文 | 申请(专利权)人: | 西南交通大学;国网四川省电力公司电力科学研究院 | 
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 | 
| 代理公司: | 成都信博专利代理有限责任公司51200 | 代理人: | 张澎 | 
| 地址: | 610031 四川省成都市*** | 国省代码: | 四川;51 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 一对 混合 字符串 融合 方法 | ||
技术领域
本发明属于字符串智能比对技术领域,具体涉及一种新型一对多的混合字符串融合比对方法。
背景技术
字符串比对问题是计算机科学中的一个基本问题,其研究内容在信息检索、模式识别等众多领域均有着重要的应用价值[1]-[4]。
文献1分别研究中文字符串模糊匹配算法,文献2研究了一种基于汉字聚类特征的中文字符串相似度计算方法。文献3对LCS与GST算法做了比较,GST算法是一种贪婪字符串比对算法,也是一种无序匹配算法,目前应用较广,但该算法采用了两个字符串逐个字符比较的方法,所以算法的时间复杂度较大。文献4研究了对GST算法改进后RKR-GST算法,提高了GST算法的运行效率,但是RKR-GST算法中散列函数的选择对算法的运行影响很大。
现有的字符串比对方法往往只采用一种算法,没有能够充分利用无序字符子串和部分有序字符子串在匹配度计算时的各自特点,往往它们的比对效果并不理想。在一些某些混合字符串的实际应用中,不但要求比对的准确性高,而且要求比对的速度快。目前,通过单一的匹配度计算方法,往往很难精确地表达字符串的相似程度。
另外,现有的字符串比对方法没有考虑同义字符串可能存在不同表达方式的情况,使得现有字符串比对方法在此类情况下很难达到较准确、高匹配率的要求。
参考文献:
[1]陈开渠,赵洁,彭志威.快速中文字符串模糊匹配算法[J].中文信息学报,2003,18(2):58-65
[2]王静婷.基于汉字聚类特征的中文字符串相似度计算研究[J].现代图书情报技术,2011,20(2):48-53
[3]于海英.字符串相似度度量中LCS和GST算法比较[J].电子科技,2011,24(3):101-103
[4]牛永洁.RKR_GST算法在_NET中的分析与实现[J].信息技术,2012,3:171-174
发明内容
鉴于现有技术的以上不足,本发明的目的是提供一种更准确的混合字符串融合比对方法。解决了实际应用中以单一匹配度计算方法很难达到精确表达字符串之间相似程度、同义字符串存在不同表达方式情形下现有字符串比对方法几乎失效等问题。
本发明的目的是通过以下的手段实现的:
一种一对多的混合字符串融合比对方法,对基于汉字聚类特征的由汉字、数字、英文字母组成的混合字符串的相似度进行融合比对,以提高表达字符串的相似的精确度,包括以下主要步骤:
1)取出源字符串和一组待匹配字符串;
2)读出事先在存储器中构建的字符串等价替换字典,对该组待匹配字符串中部分字符(子串)进行等价替换;利用等价替换字典,将上述在源字符串场合和待匹配字符串场合具有不同描述但含义相同的两种子串进行统一;
3)取出源字符串,依此取出等价替换后的该待匹配字符串数组中的一个待匹配字符串;
4)利用GST*算法计算源字符串与该待匹配字符串的匹配度a:
采用传统GST算法,得到两个字符串中各公共子串,将它们存入公共子串链表中。如果某个公共子串的字符长度与较长字符串字符长度的比值大于或等于0.33,则在计算匹配度时将该公共子串的字符个数乘以权重,该权重为大于1的常数;如果某个公共子串的字符长度与较长字符串字符长度的比值小于0.33、且公共子串的字符个数大于最小匹配长度,则计算匹配度时将该公共子串的字符个数直接带入计算;
5)利用偏有序字符串匹配算法POC(Partial Order Comparison,POC)计算源字符串和待匹配字符串的匹配度b:
将两个待匹配的含有汉字、数字和英文字母的混合字符串分别称为源字符串和待匹配字符串,
首先,先搜索出源字符串与待匹配字符串中相同的字符或汉字,记录下它们的个数,;
其次,以源字符串和待匹配字符串中较长字符串为标准,求匹配度1(match_degree1):
以其中较短字符串为标准,求匹配度2(match_degree2):
公式(1)、(2)中[]表示取整;
再次,分别比较源字符串和待匹配字符串中第1个或第2个数字与字母,最后1个或倒数第2个数字与字母,如果其中1项相等,则调整匹配度2的match_degree2数值为match_degree2+1:
对匹配度1和匹配度2赋予不同的权重0.41、0.59,求源字符串和待匹配字符串的最终匹配值b:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南交通大学;国网四川省电力公司电力科学研究院,未经西南交通大学;国网四川省电力公司电力科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310746846.5/2.html,转载请声明来源钻瓜专利网。





