[发明专利]一种确定文本视觉相似度的方法在审
申请号: | 201410564469.8 | 申请日: | 2014-10-21 |
公开(公告)号: | CN104375982A | 公开(公告)日: | 2015-02-25 |
发明(设计)人: | 柳厅文;张浩亮;闫旸;时金桥;亚静;季月英 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 成金玉;孟卜娟 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 确定 文本 视觉 相似 方法 | ||
技术领域
本发明涉及一种确定文本视觉相似度的方法,属于互联网技术领域。
背景技术
随着互联网的蓬勃发展,互联网中承载着各式各样的海量信息,并且规模在快速增长。这其中包含着大量视觉相似度非常高的文本。文本视觉相似度是指对两个给定文本,从人的视觉感官角度衡量两个文本的相似度。对一个合法或正常的文本A来说,如果某个文本B与其具有非常高的视觉相似度,那么就非常可能引起人的视觉错误,从而错把文本B当作文本A使用。这样就会给使用者带来不必要的风险和麻烦。例如,如果文本A是一个银行网站的URL,不法分子可能伪造该银行网站,在其中挂载恶意木马等攻击脚本,并使用一个看上去与文本A非常相似的文本B作为伪造站点的URL。一旦用户被迷惑,错误地把文本B当作文本A点击,那么就会发生用户帐号窃取甚至是资金被套走,导致一系列恶劣的经济后果。如果用户被两个非常相似的邮件地址迷惑,错把收件人人的地址写错,就会发生邮件误发事件。如果误发邮件中包含个人信息、财务数据甚至涉密信息等敏感数据,就会导致严重的社会和经济问题。现在的邮件客户端基本上都具有邮件地址自动补齐功能,即用户输入收件人邮箱地址的若干个字符,客户端会根据用户的发送邮件历史,向用户推荐一些邮箱地址供用户选择,这些邮箱地址以用户输入的字符为前缀。自动补齐功能使用户可以不输入完整的收件人邮件地址,带来了一些便利,但引入的一个问题是由于人们误选择备选项而导致邮件误发的情况更容易发生。因此,需要一种确定文本视觉相似度的方法,以期避免由于人的视觉疏忽导致误发邮件事件的发生。
目前传统的确定字符串相似度的方法是Levenshtein相似度计算方法,也就是字符串之间的编辑距离,在字符串直接不同位置的字符被赋予相同的权重。这种方式无法合理的准确的反映和理解用户阅读和书写特定字符串(例如email地址、URL)的习惯。针对两个字符串,根据人们实际阅读的习惯,对字符串的不同位置赋予不同的权重,以防止人们误读而造成列斯URL钓鱼攻击或者由于用户的写错收件人地址而造成发错收件人,从而造成个人隐私,甚至是国家机密的泄漏。
所以迫切需要一种新型的字符串相似度确定方法,以弥补上述不足。
发明内容
本发明的技术解决问题:克服现有技术的不足,提供一种确定特定文本视觉相似度的方法,一种特定字符串(通常以电子邮件为例)文本相似度的方法,达到了比传统的检测技术更高的准确率和召回率。
本发明技术解决方案:一种确定文本视觉相似度的方法,实现步骤如下:
(1)计算两个字符串直接的视觉距离,计算公式如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410564469.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:自然语言文本关键词关联网络构建系统
- 下一篇:一种数据替换的方法和设备