[发明专利]一种基于中文词对关系相似度的类比检索控制方法无效
| 申请号: | 201110415403.9 | 申请日: | 2011-12-13 |
| 公开(公告)号: | CN102955837A | 公开(公告)日: | 2013-03-06 |
| 发明(设计)人: | 吕钊;梁超 | 申请(专利权)人: | 华东师范大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
| 代理公司: | 隆天国际知识产权代理有限公司 72003 | 代理人: | 吴世华;冯志云 |
| 地址: | 200241 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 文词 关系 相似 类比 检索 控制 方法 | ||
技术领域
本发明涉及中文词对关系相似度和信息检索技术领域,具体地说是基于中文词对关系相似度的类比检索技术。
背景技术
随着WWW的持续发展和搜索引擎的不断进步,网络搜索变得越来越容易。第一代搜索引擎是以Yahoo为代表的人工目录分类导航检索的网站搜索,它开始了互联网搜索的时代。第二代是以Google为代表的是基于关键词和特殊算法的搜索,是依靠机器抓取的、建立在超链分析基础上的大规模网页搜索,其搜索结果的准确度从网站上升至了网页。目前的搜索引擎还存在一些问题,如单一的搜索引擎不能覆盖整个Internet资源,搜索不够精确,不能真实反映用户意图。下一代搜索引擎的目标是能够模仿人的一些思维和想法,是概念的模糊搜索,它通过分析网页之间的关联,建立一种类似人的思维的更智能化的概念分类方式,通过模仿人的思维模式,对要查找的概念进行关键字联想和分类来扩大搜索的外延和深度。
本发明希望提出一种新的检索控制方法。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于中文词对关系相似度的类比检索控制方法。
根据本发明的一个方面,提供一种基于中文词对关系相似度的类比检索控制方法,其用于基于至少一个关键词检索获取至少一个目标词,其特征在于,包括如下步骤:a.获取词对,其中所述词对为与所述关键词 和所述目标词 相同关系的词对;b. 根据所述检索结果,抽取包含所述词对的短句,其中所述短句为同时包含所述词对的一个完整的句子;c. 根据所述包含所述词对的短句集合抽取词对关系模式集合;d. 对所述词对关系模式集合中的第一关系词集合进行一次聚类以获得第二关系词集合;e. 对所述第二关系词集合进行二次聚类,并将所述二次聚类获得的结果作为第一中间关系词集合;g. 将所述第一中间关系词集合中的关系词逐一与所述关键词形成第一词对,重复上述步骤a至步骤e,从而针对每一个所述第一词对得到与所述第一词对对应的第二中间关系词集合,其中,所述关系词为所述关系模式中除所述词对之外的至少一个词语;h. 将每一个所述第二中间关系词集合 作为目标词集合,其中,每一个所述第二中间关系词集合中的关系词对应一个所述目标词集合,所述第四关系词集合与所述第二中间关系词集合形成二维结果集 。
优选地,在所述步骤e与所述步骤g之间还包括步骤:f. 对所述第一中间关系词集合进行三次聚类,并将所述三次聚类获得的结果作为所述第一中间关系词集合,其中,所述步骤g中对所述每个第一词对重复上述步骤a至步骤f。
优选地,所述步骤a包括如下步骤:a’ 在搜索引擎中检索所述词对。
优选地,所述步骤a包括如下步骤:a1. 将所述词对的检索结果中的标题分条目抽取出来。
优选地,所述步骤c包括如下步骤:c1. 抽取所述包含所述词对的短句的集合中所述每一个短句的关系模式;c2. 将所述关系模式按照关系模型进行分组 ,形成所述词对关系模式集合。
优选地,所述步骤c1还包括如下步骤:c11. 将所述包含所述词对的短句的集合中所述每一个短句分成具有独立语义的词语;c12. 将所述每一个短句中的所述每一个具有独立语义的词语进行词性标注;c13. 抽取所述每一个短句中词性为名词和动词的所述具有独立语义的词语;c14. 将抽取得到的所述每一个短句中的词语组合作为所述短句的所述关系模式。
优选地,所述步骤c2还包括如下步骤:c21. 将所述关系模式与所述关系模型进行匹配,具有相同的所述关系模型的所述关系模式分为一组;c22. 将每一组中相同的所述关系模式进行合并,并累加所述关系模式的频率;c23. 将每一组中不同的所述关系模式进行相似度计算;c24. 将所述相似度超过第一阈值的所述关系模式进行合并,并累加所述关系模式的频率;c25. 将所有经过上述合并操作的所述关系模式作为所述词对关系模式集合,其中所述每个词对关系模式对应一个频率值。
优选地,所述步骤d包括如下步骤:d1. 抽取所述词对关系模式集合中所述第一关系词集合;d2. 将所述第一关系词集合进行一次聚类,以获得所述第二关系词集合。
优选地,所述步骤d1还包括如下步骤:d11. 抽取所述词对关系模式集合中所述每一个词对关系模式中的关系词,其中,所述关系词为所述词对关系模式中除了所述词对外的词语;d12. 将所有所述关系词作为所述第一关系词集合,其中,所述每个关系词对应一个频率值,所述频率值为所述关系词所在所述词对关系模式出现的频率;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110415403.9/2.html,转载请声明来源钻瓜专利网。





