[发明专利]为网页分配关键词有效
| 申请号: | 201080034039.5 | 申请日: | 2010-07-20 |
| 公开(公告)号: | CN102473190A | 公开(公告)日: | 2012-05-23 |
| 发明(设计)人: | 穆拉里达兰·萨姆帕思·柯迪阿兰姆;沙立·慕克吉;王利民;尹星焕 | 申请(专利权)人: | 阿尔卡特朗讯 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京汉昊知识产权代理事务所(普通合伙) 11370 | 代理人: | 罗朋 |
| 地址: | 法国*** | 国省代码: | 法国;FR |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 网页 分配 关键词 | ||
技术领域
本发明一般涉及网页分类的领域,更具体地,涉及根据相关关键词进行网页分类。
背景技术
网页关键词分配是网页分类和搜索的一个重要步骤。关键词必须具有足够的代表性,以捕捉包含在页面中的信息,以及,必须足够通用且为社会接受,以用于实际使用(例如,根据用户提供的搜索关键词为用户识别一个相关网页)。
通常网页中包含一些由设计者为其分配的关键词。例如,关键词可能在超文本标记语言(HTML)标签“title”或元标签“keyword”或“div”下被找到。由于不同的网页设计者分配该等关键词的方式不同且用以服务的目的不同,该等关键词在实际使用中并不一定能够被接受。
有多种不同技术可能用于为网页分配关键词。在基于人工智能的技术中,一种算法分析网页以获得该网页的特点和相应地为该网页分配关键字。该种算法提高了所分析的网页的数量。在基于数据挖掘的技术中,一种算法寻找页面内出现的数据的趋势,然后为该页面识别关键属性。在基于关键词密度的技术中,一种算法对出现在网页中的词进行分类,并且基于已获得的密度函数为该网页分配关键词。
该等技术都是计算密集型的,且由于需要分析网页内容,要求为每个页面提供大容量存储空间。此外,页面内容的任何修改将使得对整个页面再次分析成为必须。进一步,由于该等技术依靠页面的内容,其不适用于为基本无词的网页分配关键词,例如由JavaScript动态构建的页面,如谷歌地图页面。
发明内容
现有技术的多种缺陷,被本发明的、使用关键词数据为网页分配关键词的方法、系统及设备所解决,其中,所述关键词数据从网页自身、包含指向该网页的链接的网页,以及,被在该网页中的链接指向的网页中获得,其中,从多个网页中获得的该关键词数据被处理,从而为该网页提供关键词数据的相关集合。
为网页分配关键词的方法的一个实施例包括:识别与网页相关的自有关键词,该自有关键词包括从该网页中获得的关键词数据;识别与该网页相关的内链关键词,该内链关键词包括从包含链接至该网页的链接的其他网页中获得的关键词数据;识别与该网页相关的外链关键词,该外链关键词包括从包含该网页链接至其他网页的链接的所述其他网页中获得的关键词数据;以及,合并该自有、内链和外链关键词,以为该网页形成关键词集合。此外,该自有、内链和外链关键词集合可能会进一步被处理,以提供相应的有序排序的自有、内链和外链关键词集合。此外,一个或多个启发式函数可能会被用于确定,在自有、内链和外链关键词集合中的,每个关键字的相对重要度。
附图说明
鉴于以下结合相应附图的详细说明,本发明的教导可以被很容易地理解,其中:
图1描绘了一个网络化的计算机系统高级框图,其有助于理解本发明的实施例;
图2图示性地描述了被链接的网页之间的关键词关系;
图3描绘了根据一个实施例的用于为网页分配关键词的方法流程图;
图4描绘了一个在网页中识别合适关键词的方法流程图;
图5描绘了一个为与网页相关的关键词排序的方法流程图;
图6描绘了一个适用于执行在此描述的功能的通用目的计算机的高级框图。
为便于理解,在可能的情况下,使用相同的参数以指定附图中共用的相同的元素。
具体实施方式
本发明将主要在用于为特定网页分配关键词的方法、系统及设备的场景中被描述,其中,使用从所述特定网页、包括指向该特定网页链接的其他网页,以及,被在所述特定网页中的链接指向的其他网页的数据,为特定网页分配关键词。多个网页可能被迭代处理,以加强相应关键字的相关性。网页关键词数据库可能会被生成,在该网页关键词数据库中,与多个网页,可能所有可用网页,相关的关键词被提供,使得对该关键词数据库的高速搜索在搜索算法、分类算法及类似算法的场景中被提供。那些本领域的和通过教导而知晓的技术人员在此将意识到可适用于许多其他应用的实施例,例如网页分类(通过为多个网页分配关键词),用户追踪(通过检测被用户访问的页面的关键词)等。
通常,网页中包含一些由设计者为其分配的一些关键词。例如,网页中的关键词可能通过检测HTML标签,如“title”或其他HTML标签,或通过检测元数据标签,如“keyword”标签或“div”,被找到。多种实施例在迭代的或非迭代方法论的场景中,利用该等关键词为特定网页分配关键词。要注意的是,该等实施例执行操作为网页分配关键词,即使该网页或相关网页不包括与标签相关的关键词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿尔卡特朗讯,未经阿尔卡特朗讯许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201080034039.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于OFDMA的无线电网络中的通信
- 下一篇:三波长光合波器





