[发明专利]获得文本的表示的方法无效
| 申请号: | 200680042744.3 | 申请日: | 2006-11-03 |
| 公开(公告)号: | CN101310277A | 公开(公告)日: | 2008-11-19 |
| 发明(设计)人: | J·H·M·科斯特;G·格莱恩斯 | 申请(专利权)人: | 皇家飞利浦电子股份有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 中国专利代理(香港)有限公司 | 代理人: | 李静岚;谭祐祥 |
| 地址: | 荷兰艾*** | 国省代码: | 荷兰;NL |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 获得 文本 表示 方法 | ||
本发明涉及一种获得包括文本的表示-例如歌曲的歌词-的数据文件的方法,包括:
根据提交给服务器系统的搜索查询而获得包含字符串的多个候选文件,其中该服务器系统被安排成允许执行至少一个服务器的内容的搜索,
形成该多个候选文件的子组,以及
仅仅从该子组中的至少一个候选文件形成文本的表示。
本发明还涉及一种用于获得包括文本的表示-例如歌曲的歌词-的数据文件的系统,包括:
客户机,用于提交搜索查询给被安排成允许执行至少一个服务器内容的搜索的服务器系统,和用于响应于该搜索查询而获得包含字符串的多个候选文件,
其中该系统被配置成形成该多个候选文件的子组,以及
仅仅从该子组中的至少一个候选文件形成文本的表示。
本发明还涉及一种消费电子设备,其包括网络端口并且被配置成经由该网络端口与服务器系统进行通信,该服务器系统被安排成允许执行至少一个服务器的内容的搜索。
本发明还涉及一种计算机程序。
这样的方法、系统、消费电子设备和计算机程序的各自的例子从Evillyrics,http//www.evillabs.sk/evillyrics FAQ:“How does itdetermine where to look for lyrics(如何确定在哪里查找歌词)?”:browse candidates manually(手动浏览候选者),2003年11月22日,已知。EvilLyrics使用通常的搜索引擎(Google,Alltheweb,Altavista)来查找歌词。从返回的结果中,它挑选被称为歌词站点的那些结果。它下载它们的第一个,并尝试通过使用内置的过滤器分析它。如果页面看来是适合的,则它在歌词框中显示它认为是歌词的东西。有时,它从歌词站点返回并不是实际歌词页面的页面,而是例如用于整个歌曲集的歌词的列表。在这种情形下,EvilLyrics分析该页面并尝试找出到相应的歌词页面的链接。如果这个尝试失败,则它从搜索引擎返回的结果组中以另一个命 中(hit)重新开始。如果所有的结果都被使用而它们中没有一个看来是所寻找的东西,则显示一个错误消息,以及歌词页面仍旧是空白的。
该已知方法的问题在于,它不是非常适合于由联网的设备进行的自动访问。这是由于以下事实,即:这样的设备必须被编程以使它适配于歌词页面上的特定标记。当专门化的歌词页面的供应者改变布局或阻塞访问时,则该设备必须重新编程。
本发明的目的是提供用于根据从各种源提供结果的搜索查询而获得基本上正确的文本表示的方法、系统、消费电子设备和计算机程序。
这个目的是通过按照本发明的方法来实现的,该方法的特征在于,比较候选文件中的基于至少某些字符串的数据,以及从对于其而言、基于至少某些字符串的数据满足相似性测度的候选文件来形成子组。
因为该方法牵涉到根据提交给服务器的搜索查询而获得多个候选文件,该服务器被安排成允许执行至少一个服务器的内容的搜索,所以它有利地适合于结合通常的搜索引擎来使用,使得该方法不限于一个特定的数据库。因为该方法牵涉到候选文件中基于字符串的数据的比较,所以它不受包含指令的标签限制,其中所述指令诸如是有关可被提供到浏览器程序等等的页面布局的指令。该比较可以允许将多个候选文件分类(sort),这样,该方法能应付由搜索查询产生多个候选文件的事实。它适合于自动化,因为所述比较不需要人为干预。例如,因为正确的文本表示多半是在多个候选文件内最常出现的文本,所以该方法适合于提供正确的文本表示。
一个实施例包括:
从多个候选文件的每一个中提取一定数目的不同的字符串,以对于该多个候选文件的每一个形成一个字符串表征组,
将多个字符串表征组与该字符串表征组中的至少另外一个相比较,
其中将对于其而言、字符串表征组共同具有大于一定数目的字符串的候选文件加到子组中。
这些特征的效果是使得比较在计算方面是相对高效的。两个候选文件的每一比较在由两个候选文件中所有字符串形成的文本的长度上是线性。为了提取一定数目的,即相应数目的字符串,比如说,来自n个字符串的主体的k个字符串,需要O(n)次运算。为了按次序,例如按字母表次序分 类k个字符串,需要O(k·logk)次运算。为了比较k个字符串,需要O(k)次运算。用于一次比较的总运算数目因此是O(n+k+k·logk),这与诸如需要O(n2)次运算的最长公共子串比较那样的比较相比是有利的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于皇家飞利浦电子股份有限公司,未经皇家飞利浦电子股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200680042744.3/2.html,转载请声明来源钻瓜专利网。





