[发明专利]一种基于搜索引擎的概念语义相似度度量方法在审
| 申请号: | 201310713182.2 | 申请日: | 2013-12-20 |
| 公开(公告)号: | CN103678642A | 公开(公告)日: | 2014-03-26 |
| 发明(设计)人: | 徐峥;齐力;梅林;胡传平;支凤麟;梁辰;骆祥峰;魏晓;张顺香 | 申请(专利权)人: | 公安部第三研究所 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
| 代理公司: | 上海天翔知识产权代理有限公司 31224 | 代理人: | 刘常宝 |
| 地址: | 200031*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 搜索引擎 概念 语义 相似 度量 方法 | ||
技术领域
本发明涉及数据挖掘领域,具体为一种度量概念语义相似度方法。
背景技术
在web挖掘,信息检索和自然语言处理中,准确地度量概念间的语义相似度是一个重要的问题。网络挖掘应用中如社区萃取,关系检测,和概念消歧,要求能够准确地度量概念或实体之间的语义相似度。在信息检索中,一个主要的问题是在用户查询时要检索出一组语义相关的文件给用户。对于各种自然语言处理任务,比如单词语义消歧,文本蕴涵,自动文本摘要,高效的估计词与词之间的语义相似度是至关重要的。
在之前的研究中,有很多基于网站基础上的语义相似性度量的研究,主要分为以下三个方面:
(1).根据搜索引擎返回的网页数量来度量,返回的数量越大说明概念间的相似度越大。
(2).根据文件的下载排行的数量,然后应用顶级文本处理技术来度量。这些度量是建立这些假设基础上,相似的上下文意味着相似的意义,即单词出现在类似的词汇环境有着密切的语义关系。
(3).结合(1)和(2)来度量。
综上所述,度量概念的语义相似度,但是度量关联关系的主观和客观的方法中很少去除噪声和网页片段的冗余度。
目前已经提出了许多不同的概念语义相似度测量方法,这些方法主要分为两个方面:基于分类的方法和基于网络的方法。基于分类的方法是使用信息理论和层次分类来计算语义相似度,然而基于网络的方法与之相反,它将网络作为一个动态、实时更新的语料库,基于语料库来计算语义相似度。
信息内容可以用来评价概念语义相似度,概念C的信息内容是负的对数似然值,即是指发生概念C的可能性,根据信息内容的思想开发了相似度词汇集软件来度量一对概念的语义相似度。然而两个词汇的距离分类是测量语义相似度更自然直接的方式。从一个词汇到另一个词汇的距离越短,他们就越相似。由于考虑到线、深度、密度的类型,通过计算边缘密度、边缘深度、边缘强度的公式来测量概念语义相似度,也是一种好方法。信息内容和两个词汇的距离组合在一起形成的模型可以测量概念语义相似度,然而使用空间向量模型和随机漫步也可以测量概念语义相似度。过去有人探索了大量信息资源的语义相似度的定义,这些资源是由词典分类的结构化的语义信息和语料库的信息内容组成。为了调查信息资源的有效性,实施了大量的使用各种可能的信息资源的技术。因为新单词不断产生,新的含义也被分配到存在的词汇中。手动的包含叙词表的软件比如词汇集抓取新词汇和新含义是耗资巨大的,如果可能的话,这使基于分类的方法在相关Web任务中显得很不灵活。
与基于分类的方法不同,逐点互信息方法是使用Web搜索引擎返回的点击数量来识别同义词,共生双重检查是将Web作为更新的语料库,这种方法的核心是搜索引擎的排名算法。相似的内核函数可以通过google定义搜索到的概念语义相似度,相似的内核函数的功能是在一个大规模的系统中向搜索引擎使用者建议相关的询问。基于语料库的方法即叫做二阶共生PMI,来计算两个目标词汇的语义相似度。该方法是使用相互的信息去分类两个目标词汇的一系列重要的相邻词汇。Web搜索引擎提供的页面计数和段落也可以测量语义相似度。这种方法需要借助于一些从段落中自动提取的语法模式。在这个方法中,从排名前900的片段中提取200个模式,200个模式来自于4562471独一无二的模式。因为排名靠前的模式随着时间的推移而改变,大量的独一无二的模式的再生让这种方法很耗时,因此,提取模式极大地影响了这个方法。
综上所述,目前存在的基于网站的度量语义相似度方法缺少相关的机制处理网站数据中的噪声和冗余度。
发明内容
针对现有度量语义相似度方法无法处理网站数据中的噪声和冗余度的问题,本发明的目的在于提供一种基于搜索引擎的概念语义相似度度量方法,有效移除了搜索引擎数据中存在的噪声和冗余度。
为了达到上述目的,本发明采用如下的技术方案:
一种基于搜索引擎的概念语义相似度度量方法,所述度量方法包括如下步骤:
(1)网页计数,由搜索引擎搜索相关概念,并返回相应的网页数量;
(2)语义片段,通过搜索引擎搜索提供包括所有概念的语义片段,并计算包括所有概念的语义片段占搜索引擎搜索返回的所有语义片段的比例;
(3)已显示的搜索结果的数量,通过搜索引擎搜索显示搜索到的结果,并提供已显示的结果的数量;
(4)根据步骤(1)至(3)提供的结果进行概念语义相似度计算。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于公安部第三研究所,未经公安部第三研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310713182.2/2.html,转载请声明来源钻瓜专利网。





