[发明专利]基于伪种子属性和随机漫步排序的语义属性自动抽取方法及实现该方法的系统有效
申请号: | 201210118461.X | 申请日: | 2012-04-20 |
公开(公告)号: | CN102663123A | 公开(公告)日: | 2012-09-12 |
发明(设计)人: | 杨沐昀;孙叔琦;李生;赵铁军 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 张宏威 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 种子 属性 随机 漫步 排序 语义 自动 抽取 方法 实现 系统 | ||
技术领域
本发明涉及信息检索技术领域,具体涉及语义检索技术。本发明旨在从查询日志中自动识别命名实体的属性词,其结果可以作为一种知识库应用于检索过程中的查询推荐、词义消歧、结果重排序等子任务。
背景技术
语义检索是一种新兴的网页检索需求。万维网的丰富内容中蕴含着大量的语义知识,而深入挖掘这些知识,将使得现有的基于关键词的网页检索系统朝着“语义化”的方向转变。虽然基于现有计算机技术对自然语言充分理解还不现实,现有工作对万维网语义信息挖掘得并不充分,但是依然有相当数量的网页检索应用可以从较易挖掘的语义知识中获益,语义属性即为其中一种。
语义属性描述了给定实体所具备的基本性质,例如“首都”是“中国”的属性、“价格”是“佳能5D MarkII”(一种数码相机)的属性,等等。严格地说,这种语义属性一般附着于一个更加完整的语义类,而不仅仅是某个单独个体。所谓语义类是一个名实体的集合,由若干共享共一个上下位关系的名实体构成。例如“国家”这个语义类中包含“中国”、“美国”、“俄罗斯”等。也就是说,语义属性抽取的研究主要关注一类实体所共有的属性。例如“国家”的属性包括“首都”、“人口”、“面积”等等。
在具体技术手段上,语义属性词的自动识别(也称为语义属性自动抽取,本申请中也常使用这种说法)的现有手段一般是根据事先给定的少量“种子”属性,对其所处的上下文建立模型。而后,对于处于相似上下文中的词语,根据其上下文与种子属性的上下文间的相似度,对这些词语进行筛选。最后,选取列表中的前N个词语作为语义属性词的输出结果。研究表明,这种基于上下文相似度的方法具有一定自由度和自适应性,且依赖的指导信息更少。
查询日志作为语义属性词自动识别的一个新知识源,近年来受到较多的关注,例如:文献[1]:Pasca M.2007.Organizing and searching the World Wide Web of facts-step two:harnessing the wisdom of the crowds.In Proceedings ofthe 16th International World Wide Web Conference.101-110;文献[2]:Pasca M.and Durme B.2007.What you seek is what you get:extraction of class attributes from query logs.In Proceedings ofthe 20th International Joint Conference on Artificial Intelligence.2832-2837;文献[5]:Pasca M.,Alfonseca E,Robledo-Arnuncio E,Martin-Brualla R.,and Hall K.2010.The role of query sessions in extracting instance attributes from Web search queries.In Proceedings ofthe 32nd European Conference on Information Retrieval.62-74;文献[6]:Alfonseca E,Pasca M.,and Robledo-Arnuncio E.2010.Acquisition of instance attributes via labeled and related instances.In Proceedings ofthe 33rd Annual International A CM SIGIR Conference onResearch and Development in Information Retrieval.58-65;文献[7]:Pasca M.and Durme B.2008.Weakly-supervised acquisition of open-domain classes and class attributes from Web documents and query logs.In The 46th Annual Meeting ofthe Association for Computational Linguistics.19-27等。其中,文献[1](题名译文:在WWW网络中组织与检索事件-第二步:驾驭群体智能)指出,查询日志中的查询文本蕴含着用户的既有知识。当用户需要获取新知识的时候,会利用这些知识来构造查询。具体到语义属性抽取工作上,当用户想要知道某个实体的某项属性,例如某种疾病的“症状”的时候,必然会构造形如“某疾病症状”的查询。如果可以从大量用户提交的查询文本中收集这样的知识,那么就能构造出一个基于搜索用户群体知识的语义属性库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210118461.X/2.html,转载请声明来源钻瓜专利网。