[发明专利]一种匹配关键词的方法及装置无效
申请号: | 201010104942.6 | 申请日: | 2010-01-29 |
公开(公告)号: | CN102081638A | 公开(公告)日: | 2011-06-01 |
发明(设计)人: | 柯宗贵;柯宗庆 | 申请(专利权)人: | 蓝盾信息安全技术股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市国枫律师事务所 11366 | 代理人: | 杨思东 |
地址: | 510665 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 匹配 关键词 方法 装置 | ||
技术领域
本发明涉及计算机及互联网领域,特别是涉及一种匹配关键词的方法及装置。
背景技术
在检查互联网信息或文本文件的过程中,通常要分析页面内容。现有的做法是搜索页面中包含的一个或多个关键字。即用关键词对页面内容进行匹配,以寻找关键词在页面中的位置。
但是,关键词是作为一个整体参与匹配的,例如:“互联网”,这种技术不能对汉字和非汉字字符夹杂情况下的关键词进行检索,并且不能检索到目标关键词的近似词汇。
发明内容
本发明提供了一种匹配关键词的方法及装置,用以解决现有技术不能对汉字和非汉字字符夹杂情况下的关键词进行检索,并且不能检索到目标关键词的近似词汇的问题。
本发明的匹配关键词的方法,包括下列步骤:生成关键码的步骤:将关键词中的汉字逐一用汉语拼音编码,生成关键码;生成待检索码流的步骤:将待检索页面中的汉字逐一用汉语拼音编码,生成待检索码流;匹配的步骤:以关键码对待检索码流进行匹配,得出匹配结果。
本发明的匹配关键词的装置,包括:第一编码模块,用于将关键词中的汉字逐一用汉语拼音编码,生成关键码;第二编码模块,用于将待检索页面中的汉字逐一用汉语拼音编码,生成待检索码流;匹配模块,用于以所述关键码对 待检索码流进行匹配,得出匹配结果。
本发明有益效果如下:
本发明可对汉字和非汉字字符夹杂情况下的关键词进行检索,并且可检索到目标关键词的近似词汇。
附图说明
图1为本发明实施例中的方法步骤流程图;
图2为本发明实施例中的装置结构示意图。
具体实施方式
为了完善现有关键词检索技术不能对汉字和非汉字字符夹杂情况下的关键词进行检索的缺陷,以及不能检索到目标关键词的近似词汇的缺陷,本发明提出了一种匹配关键词的方法及装置,以下通过若干实施例具体说明。
参见图1所示,本发明实施例中的方法包括下列主要步骤:
S1、将关键词中的汉字逐一用汉语拼音编码,生成关键码。
S2、将待检索页面中的汉字逐一用汉语拼音编码,生成待检索码流。
S3、以关键码对待检索码流进行匹配,得出匹配结果。
更为具体的在步骤S1和S2中,关键词中若包含英文字符,则在编码过程中该英文字符作为关键码的一部分予以保留,并且其在关键码中的位置与在原关键词中的位置相同。待检索页面中若包含英文字符,则在编码过程中该英文字符同理作为待检索码流的一部分予以保留,并且其在待检索码流中的位置与在原待检索页面中的位置相同。
更为具体的在步骤S2和S3中,对待检索页面内容的编码和关键字的关键码匹配是同时进行的。即在将待检索页面中的汉字逐一用汉语拼音编码,生成待检索码流的过程中,以关键码实时跟踪匹配,当匹配到相同的编码时,将当前待检索码流尾部与关键码相匹配的编码对应的文字呈现给用户。具体流程为 在生成关键码后,按顺序从待检索页面中获取一个字符,该字符可为汉字也可为英文字符,若为汉字,则对该汉字用汉语拼音编码,得到一串英文字符,若为英文字符,则直接将其作为待检索码流的一部分。在得到当前字符的编码后,实时与关键码进行匹配,若关键词为一个字,则可能完整匹配,若关键词为多个字或是中英夹杂,则可能按照关键码从左到右的顺序匹配到关键码的片段,之后在下一字符编码后,继续进行匹配操作,若经过若干个字符编码后,可得到连续的关键码片段并可组成完整的关键码,则判定匹配到一个关键码;之后可将待检索页面中对应的文字实时以高亮方式或其它方式呈现给用户。如此循环,直至将待检索页面的内容全部匹配完毕。
在具体实现中,例如:关键词为“互联网Internet”。待检索页面中的文字内容为“随着时代的发展,互联网Internet已成为人们生活中必不可少的元素”。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于蓝盾信息安全技术股份有限公司,未经蓝盾信息安全技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010104942.6/2.html,转载请声明来源钻瓜专利网。