[发明专利]一种中文域名相似度计算方法及仿冒域名检测方法有效
| 申请号: | 201610751260.1 | 申请日: | 2016-08-29 |
| 公开(公告)号: | CN106375288B | 公开(公告)日: | 2019-06-25 |
| 发明(设计)人: | 王利明;李丹 | 申请(专利权)人: | 中国科学院信息工程研究所 |
| 主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L29/12;G06F17/27;G06K9/62 |
| 代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 司立彬 |
| 地址: | 100093 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种中文域名相似度计算方法及仿冒域名检测方法。本方法为:1)分别生成待测域名d1、目标域名d2的中文字符集合set1、set2;2)根据集合set1、set2中字符数的比较结果确定计算标志flag的值并确定集合set1、set2中所包含的n组相似字符对以及每组相似字符对的相似度;3)根据形近字变换对待测域名d1、目标域名d2的影响值,以及字序交换对待测域名d1、目标域名d2的影响值,计算域名d1与域名d2的整体相似度值。如果整体相似度值大于设定阈值,则判定域名d1为域名d2的仿冒域名。本发明可有效检测出基于形近字替换、基于字序交换的中文仿冒域名,在网络安全领域具有广泛的应用前景。 | ||
| 搜索关键词: | 一种 中文 域名 相似 计算方法 仿冒 检测 方法 | ||
【主权项】:
1.一种中文域名相似度计算方法,其步骤为:1)分别生成待测域名d1、目标域名d2的中文字符集合set1、set2;其中,set1为待测域名d1的中文字符集合,set2为目标域名d2的中文字符集合;待测域名d1、目标域名d2的长度均为N;2)根据集合set1、set2中字符数的比较结果确定计算标志flag的值并确定集合set1、set2中所包含的n组相似字符对以及每组相似字符对的相似度;其中,n≤N;计算相似度的方法为:首先计算得集合set1、set2的元素个数setNum1、setNum2;若setNum1≥setNum2,则flag=1,否则flag=2;构造一setNum1*setNum2的矩阵,其中行元素为
列元素为
若flag=1,则按行计算字符对的相似度:首先判断列元素中是否存在与行元素xi相同的元素,若存在相同元素yi,则字符对(xi,yi)的相似度为1;若不存在相同元素,则计算xi与列元素中每个元素的相似度值,取其中的最大值对应的元素yj与xi的构成相似字符对(xi,yj),对应的相似度值作为该相似字符对(xi,yj)的相似度;若flag=2,则按列计算字符对的相似度,首先判断行元素中是否存在与列元素yi相同的元素,若存在相同元素xi,则字符对(xi,yi)的相似度为1;若不存在相同元素,则计算yi与行元素中每个元素的相似度值,取其中的最大值对应的元素xj与yi的构成相似字符对(xj,yi),对应的相似度值作为该相似字符对(xj,yi)的相似度;3)根据形近字变换对待测域名d1、目标域名d2的影响值,以及字序交换对待测域名d1、目标域名d2的影响值,计算待测域名d1与目标域名d2的整体相似度值;其中,根据公式
计算形近字变换对待测域名d1、目标域名d2的影响值DSimchar(d1,d2);若flag的值代表set1中字符数大于或等于set2中字符数,则以待测域名d1中的中文字符为基准,取各字符对的相似度值;否则以目标域名d2中的中文字符为基准,取各字符对的相似度值;CharSimi是待测域名d1、目标域名d2中第i对字符对的相似度值;计算字序交换对待测域名d1、目标域名d2的影响值DSimorder(d1,d2)的方法为:若flag的值代表set1中字符数大于或等于set2中字符数,则根据n组相似字符将待测域名d1中与目标域名相似的字符替换为目标域名中对应的字符,替换得新域名d1’,目标域名不变,即d2’=d2;否则根据n组相似字符将目标域名d2中与待测域名相似的字符替换为待测域名中对应的字符,得新域名d2’,待测域名不变,即d1’=d1;然后计算d1’与d2’的相似度作为该影响值DSimorder(d1,d2);根据公式
计算该影响值DSimorder(d1,d2);其中,EditDis(d′1,d′2)为替换后域名d1’、d2’的编辑距离;根据公式DSim(d1,d2)=Wchar×DSimchar(d1,d2)+(1‑Wchar)×DSimorder(d1,d2)计算待测域名d1与目标域名d2整体相似度值;其中,Wchar是根据形近字替换对整体域名相似度的影响而分配的权值,其取值区间为[0,1]。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610751260.1/,转载请声明来源钻瓜专利网。





