[发明专利]获取有助检索的特征、评价相关事物的价值的系统及方法无效
申请号: | 200910050761.7 | 申请日: | 2009-05-07 |
公开(公告)号: | CN101546331A | 公开(公告)日: | 2009-09-30 |
发明(设计)人: | 刘健 | 申请(专利权)人: | 刘健 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 上海智信专利代理有限公司 | 代理人: | 王 洁 |
地址: | 200072*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 获取 有助 检索 特征 评价 相关 事物 价值 系统 方法 | ||
技术领域
本发明涉及信息处理领域,特别涉及文本检索技术领域和文本处理领域,具体是指一种获取有助于文本检索的特征的系统与方法、评价与输入文本相关事物对于用户的价值的系统与方法、实现根据人员的简历评估其职业优势的系统与方法以及以文本作为查询输入的文档检索的系统与方法。
背景技术
作为本发明的一个方面,如何提升检索的效果,是网络时代的一个重要问题。检索的根本目的在于帮助用户从海量文档中将需要的文档与无关的文档进行区分。
现有检索系统的做法是,用户提供由若干特征(通常为关键词)构成的查询(query),检索系统根据查询,评估文档库中的各个文档与查询的匹配程度,并输出匹配程度达到预设标准的文档或者文档标识。
但是,用户往往并不清楚每个特征的检索效力,这导致了一定的盲目性。用户在一个查询中使用了大量特征却仍然无法有效改善查询效果。其后果,或者是不能收缩检索结果的规模,或者是丢失对于用户的检索需求而言具有潜在重要性的检索结果。此外,由大量特征构成的复杂查询导致检索系统的计算开销极大增加。
所以,面对需要检索的海量文档,如何帮助用户找到合适的特征,从而帮助用户快速收缩检索范围但又不造成重要检索结果的丢失,是提升检索效果的一个重要问题。
另一方面,如何利用信息技术手段来评价各种事物对于人类的重要性,也是网络时代的一个重要问题,关系到电子商务、网络社区等诸多方面。现有的技术基本上是通过分析网络交互行为(比如,点击、网页间的链接指向、用于检索的查询语句等)来评估各种网络资源(链接、搜索关键词等)所表征的事物的被关注程度。但这些行为含有的信息量毕竟有限,因而会影响评价结果的准确性。
同时,与本发明相关的背景技术文献如下:
(1)涉及主题词抽取的专利文献
●中国专利申请CN200710177074,一种基于词频和多元文法的新闻关键词抽取方法;
●美国专利申请US2008/0195595,Keyword Extracting Device;
●美国专利申请US2008/0319746,KEYWORD OUTPUTTING APPARATUS ANDMETHOD;
●美国专利申请US2008/0033938,Keyword outputting apparatus,keyword outputtingmethod,and keyword outputting computer program product;
●美国专利US6470307,Method and apparatus for automatically identifying keywordswithin a document。
(2)评价检索特征的技术
●美国专利申请US2009/0049036,Systems and methods for keyword selection in aweb-based social network,其中披露了如何根据关键词在两个文本集合中的分布差异来计算关键词的评分;
●美国专利申请US2007/0288514,System and method for keyword extraction以及US2009/0083262,SYSTEM FOR ENTITY SEARCH AND A METHOD FOR ENTITYSCORING IN A LINKED DOCUMENT DATABASE,其中披露了如何根据用户提供的关键词以及实体类型作为检索输入,寻找含有关键词以及属于该实体类型的实体的文档,然后根据这些文档计算各实体的评分;
●美国专利申请US2007/0061320,Multi-document keyphrase exctraction using partialmutual information,其中披露了从文档集合子集中抽取关键词,根据文档集合对关键词评分的方法;
●美国专利US6502065,Teletext broadcast receiving apparatus using keyword extractionand weighting,其中披露了寻找文档集合中共同关键词作为文本摘要的方法,其中涉及统计文档集合中各词汇的文档内词频以及文档间词频。
(3)相似搜索(根据一个文本,找到与之相似文本)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于刘健,未经刘健许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910050761.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种会唱歌的婴儿鞋
- 下一篇:一种具有簧片的并联鞋子