[发明专利]一种语用关键词通用模板的生成、应用方法与装置有效
申请号: | 201210281413.2 | 申请日: | 2012-08-09 |
公开(公告)号: | CN102902711A | 公开(公告)日: | 2013-01-30 |
发明(设计)人: | 刘莎 | 申请(专利权)人: | 刘莎 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 400041 重庆市九*** | 国省代码: | 重庆;85 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 关键词 通用 模板 生成 应用 方法 装置 | ||
技术领域
本发明涉及计算机及通信领域,特别是涉及生成、应用语用关键词模版的方法及装置。
背景技术
目前,全文关键词搜索是互联网信息搜索的基本方法,但是,全文关键词实际上有两种完全不同的应用功能。例如,当用户在全文关键词检索输入栏中输入“NBA篮球比赛直播时间”时,一种需求是想检索到与“NBA篮球比赛直播时间”相关的所有信息,这时,“时间”一词是揭示目标信息主题的语义关键词之一。另一种需求则是只想检索到NBA篮球比赛直播的具体时间,如“NBA篮球比赛直播:9-30-20:30”,这时,“时间”一词则是指示“9-30-20:30”功能与效用的语用关键词。显然,用户输入同一检索关键词的这两种不同应用功能需求,所指向的目标信息有巨大差别。因此,在关键词搜索中区别语义关键词和语用关键词,对提高关键词检索的精准度具有重要价值。
问题在于,虽然语用关键词和语义关键词同是组织信息的基本要素,但如果没有语用关键字标签导航模版,信息发布方往往会忽略提供语用关键词,或者不知道应该提供什么语用关键词,或者发布方和检索方提供的语用关键词不一致。其结果是,关键词检索的非目标信息很可能在检索结果中排序在前,而目标信息排序在后。例如,按照关键字命中率排序,“NBA篮球比赛直播时间太晚”、“没时间看NBA比赛直播了”等信息会排序在前,而检索用户真正需要的目标信息“NBA篮球比赛直播:9-30-20:30”则由于发布信息中没有“时间” 一词,只能排序在后。
更为关键的问题是,即使发布用户提供了语用关键字,目前的全文关键字搜索服务实际上也无法判别,当搜索用户输入同一关键字时到底是要的其语义功能,还是语用功能?因此,目前的全文关键字检索实际上是一种不区分关键字语义功能和语用功能的模糊检索。也因此,无论加上多少辅助性技术手段,也无法根本改善全文关键字检索的效率。
与此同时,为了提高信息搜索的效率,互联网上提供了上万种不同的结构化信息发布、检索模版(如:购物、订票等结构化信息发布、检索模版),以引导用户在结构化标签下发布、检索信息。但是,各类结构化模版均不具有通用性,因此,在提高信息检索效率的同时,也大大增加了用户的使用难度。
简言之,目前的关键词信息搜索方法仍然处在查精则不能查全,查全则不能查精的困境中。
但是,经过我们的统计和研究,互联网信息中的语用关键词具有以下双十定律:输入任意关键字,其相关信息的高频应用语用关键词在10X10范围以内。
例如,输入任意搜索关键字(如:NBA、国家发改委、智能手机、云计算、韩寒、欧美大片......),其相关信息的通用且常用分类包括新闻、告示、知识、论坛、产品、服务、人际交往、点播/下载、博客/微博、大黄页。而各类新闻的通用语用关键词包括:标题、行为主体、行为、时间、地点、背景、综述......;各类人际交往(无论是征婚、交友、招聘、应聘......)的语用关键词均包括:标题、交往目的、性别、年龄、职业......。
依据上述双十定律,本发明提供一种语用关键词通用模版的生成、应用方法与装置,用于实现语义关键词和语用关键词的区别检索,以根本改善互联网信息发布、检索效率。
发明内容
一种语用关键词通用模版的生成、应用方法与装置,用于实现语义关键词和语用关键词的区别检索,以根本改善互联网信息发布、检索效率。
一种语用关键词通用模版的生成方法,其主要流程步骤如下:
采用随机抽样的方法获得任意关键词的检索结果;
统计检索结果中的各类语用关键词的应用频率;
调用高频语用关键词生成语用关键词通用模版;
一种统计检索结果中的各类语用关键词的应用频率的方法,其特征在于,包括以下步骤:
统计结构化数据、半结构数据中的结构标签的应用频率;
统计无结构信息中标点符号冒号与关键词形成的固定搭配的应用频率;
统计语用关键词的嵌套关系及应用频率;
统计不同发布主体分类下的语用关键词应用频率;
统计不同语义关键词与语用关键词的关联应用频率;
统计在语用关键词模版中由用户自由扩展的语用关键词使用频率。
一种调用高频语用关键词生成语用关键词通用模版的方法,其步骤包括:
当没有获得用户选择的主体分类时,生成或调用不区分发布信息主体的、包括嵌套语用关键词的语用关键词通用模版;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于刘莎,未经刘莎许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210281413.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:船用水冷空调衡风系统
- 下一篇:一种顶置空调器的进出风通道组件