[发明专利]语义化的智能搜索方法有效

专利信息
申请号: 201210305152.3 申请日: 2012-08-24
公开(公告)号: CN102880645A 公开(公告)日: 2013-01-16
发明(设计)人: 陈绪平 申请(专利权)人: 上海云叟网络科技有限公司
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 暂无信息 代理人: 暂无信息
地址: 200120 上海市浦东*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 语义 智能 搜索 方法
【说明书】:

技术领域

发明涉及搜索算法的相关技术,具体是一种理解自然语义的、可以广泛应用在不同领域(如购物、音乐、图书等)的通用智能搜索方法。 

背景技术

    目前主流的基于关键词匹配的搜索技术,限制了计算机在检索中的语义分析能力。其搜索返回的结果中,包含大量的无关信息,查准率低下,不能切中用户的真正意图。比如“买黑色的手机”,其中“买”字和“的”字都会对关键字搜索的结果造成影响,而且可能只要带有“黑色”字样的产品全都成为搜索结果,比如黑色的袜子、黑色的手机等。 

显而易见,关键词搜索很难理解自然语言形式的一句话,比如“黑色的电脑”,“买安卓的手机”等。因为关键词索引是基于词库的,是词语的大杂汇,标注出的结果缺乏语义信息,缺乏知识的理解和推理能力。 

主流搜索技术的这些缺点,在移动互联网时代,就显得更为突出。在移动设备上,由于屏幕比较小,所以对搜索结果有更精准的要求。此外,“语音输入”要比“打字”方便快捷,从而对自然语言形式的搜索更为迫切。 

下面以实例来分析当前关键字搜索方法的局限性及不足之处。 

不足一:复合关键字不能语义关联 

如搜索“浦东新区的健身会所”,某知名网站网上的结果中:第一页给出的结果,没有一家是“健身会所”。可以明显地看出关键字匹配的痕迹,即商家名称中只要有“的”字的,全都算作搜索结果,地址中只要有“浦东新区”的全都算作搜索结果,没有语义化的理解和关联。

换成“找浦东新区的健身会所”,如果用这种更符合自然语义的交互方式来搜的话,现行网站的结果是:完全没有找到任何结果,搜索引擎没有自然语义的理解能力。 

再如“黑色的电脑”,某知名购物网站的结果: 

第一页的结果只有两个“学生平板电脑”,其他的20多个产品,没有一个是电脑。“找黑色的电脑”,用更符合自然语义的交互方式来搜, 某购物网的结果

效果会更差,提示没有找到相关商品,只能给出“电脑”的结果,根本不能识别“黑色”。

不足二:只有特定的“语义化”搜索,没有通用的语义化效果 

不足三:勾选太复杂,不适应移动设备的小屏幕

不足四:现在的电商不能充份发挥移动设备语音的价值点

现在的各大电商,都有手机客户端,而手机客户端都有一个功能就是接受“语音搜索”。就算是电商主页的搜索框里面,都有一个小话筒,代表着语音输入。

不管是手机也好,网站也好,他们接收来的语音,仅仅是变成了文字,然后进行了一次传统的字符串匹配。效果跟我在前面举的关键字匹配例子是一样的。 

设备的硬件条件得到迅猛发展的同时,软件方面却跟不上步伐。当前语音设备的价值点没有发挥出来,语音的作用就是代替打字,缺乏后台智能计算、自然语义的技术支持。 

发明内容

本发明主要解决当前关键词搜索算法只是将切好的关键词,基于索引匹配目标内容;当语义化的多个关键字连在一起时,匹配结果就会混乱不堪。 

所要达到的技术目的是:主动地分析、理解一句自然语义的搜索句子,将这个句子拆分成有语义的若干本体,而非关键词;利用本体和句式的匹配来代替关键词的索引匹配,最终达到一种理解自然语义的效果;进而为自然语言搜索,尤其是语音交互搜索提供一种更便捷更精确的搜索方式。 

    为完成上述发明目的,本发明是这样实现的: 

(1)以通用本体结构化领域知识;

所述的通用本体,包括事物、事物的分类、事物的特征,基于这三种基本的概念可以结构化全部的领域知识;

(2)建立领域知识库;

所述的领域知识库是在某个领域,基于上述步骤的结构化分析,通过三张固定的表格,将所有事物及关系表达清楚;这三张表分别为事物表,事物的类表和事物的特征表;同时建立三表之间的关联关系;

 (3)建立固定句式库;

根据人类语言的特点,基于事物与物的特征进行不同的排列组合,形成特定的表达自然语言的句式结构;建立起固定格式的能够用来理解自然语言意图的句式库,以及根据该意图提取领域知识的规则库;

 (4)概念切分;

根据句式结构对自然语言的句子进行词语切分,将词语与领域知识库对比进行概念标注;进而理解和识别自然语言的意图;

 (5)根据搜索规则实现知识提取;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海云叟网络科技有限公司,未经上海云叟网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210305152.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top