[发明专利]电子商务搜索引擎同义词的处理方法在审
| 申请号: | 201410132973.0 | 申请日: | 2014-04-03 |
| 公开(公告)号: | CN103886093A | 公开(公告)日: | 2014-06-25 |
| 发明(设计)人: | 唐亮 | 申请(专利权)人: | 江苏物联网研究发展中心 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q30/00 |
| 代理公司: | 无锡市大为专利商标事务所(普通合伙) 32104 | 代理人: | 曹祖良;韩凤 |
| 地址: | 214135 江苏省无锡市新*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 电子商务 搜索引擎 同义词 处理 方法 | ||
技术领域
本发明涉及电子商务搜索引擎的优化,具体是一种电子商务搜索引擎同义词的处理方法。
背景技术
随着互联网技术的发展,电子商务已经极大的改变了人们的生活习惯。国内知名电子商务网站的销售额也呈现快速的增长。所以电子商务网站相关的技术显得越来越重要。电子商务的搜索引擎可以帮助用户快速找到所需要的相关商品。
传统的电子商务搜索引擎都是采用布尔查询,其搜索流程都是按预设好的算法模型展开。但是在实际使用中,商品名称存在大量的同义词,简单采用布尔查询并不能处理这些商品名称同义词的问题。
商品名称中存在数量单位,比如搜索牛肉七百克,一般仅仅返回的是牛肉相关的商品,并不处理七百克这个数量单位,普通的搜索引擎并不能处理这些带单位的商品。
发明内容
本发明的目的是克服商品名称中的同义问题以及单位量化问题,提供一种快速的解决方案,即一种电子商务搜索引擎同义词的处理方法,其使用方便、易于操作、效率高。
按照本发明提供的技术方案,所述的电子商务搜索引擎同义词的处理方法为:(1)首先对于商品名称建立同义词词表;(2)索引端建立商品名称的索引,索引的关键字包括商品名称的同义词以及单位归一量化结果;(3)在查询端对用户输入的查询词进行字符处理和单位的归一量化;(4)最后将查询端处理好的输入交给索引端进行检索,并且返回结果。
所述同义词词表的建立可以通过网络抓取商品名称的相关搜索加上人工整理。
所述同义词词表采用单独文件存储,在有新的商品添加进来的时候,将商品相关的同义词同步加入同义词词表。
在建立索引的时候,首先对商品名称进行分词处理,然后查询同义词词表,将查询到的相关同义词添加入商品名称中,与最初的商品名称一起建立索引;同时对商品名称中的单位进行归一量化,对于归一量化的结果同时也建立索引。
本发明的优点是:对电子商务搜索引擎进行优化,改善用户的体验,提高商品的召回率,提高查询检索的准确性。
附图说明
图1是本发明的初始化模块功能示意图。
图2是本发明索引模块功能示意图。
图3是本发明索引模块处理流程图。
图4是查询模块处理流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
为了解决现有技术中搜索引擎返回的搜索结果不一定符合用户需要而对所有用户都造成用户的使用体验感差的问题,本发明提出了一种电子商务搜索引擎的修正方法。
1.本发明首先解决商品名称的多个称谓问题:同一个东西往往有多种称谓,这种指代同一个东西称谓我们称之为同义词。比如,中国人说的“盖世3”,而老外称之为“galaxy siii”或“galaxy s3”,那么我们就认为“盖世3”、“ galaxy siii”、“ galaxy s3”互为同义词。
假设某个商品的warename为“三星 Galaxy SIII I939 3G手机”(分词及词性标注结果为:三星/NR Galaxy/NN SIII/AD I/VV 939/CD 3G/CD 手机/NN),而用户的搜索词为“三星盖世3”(分词及词性标注结果为: 三星/NR 盖世/VV 3/CD)。虽然该商品能满足用户找“三星盖世3”手机的需求,但是,该商品的warename压根就没有“盖世”这样的词项,所以该商品并不会被召回(检索到)。如果有同义词模块,可以认为商品的warename由“三星 Galaxy SIII I939 3G手机”变成了“三星 Galaxy SIII I939 3G手机 盖世3 galaxy s3”,在这种情况下,用户搜索“三星盖世3”肯定会把该商品召回。
2. 本发明也解决商品名称中的单位问题:同样地,单位也存在同义词问题,比如,某商品的warename为“健康香腊牛肉500g”,而用户搜索词为“牛肉1斤”等等。对于带单位的搜索词,可以采取同义词解决召回问题吗?答案是否定的,因为每个单位往往有多种换算关系,比如说,重量单位“千克”可以换算成“克”、“斤”、“公斤”、“钱”、“两”、“毫克”、“kg”、“mg”等多达十多种,如果采取构建同义词表的方法,无疑会提高同义词表的维护成本,此法行不通。为此,采用单位归一及量化来解决带单位的用户搜索词的召回问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏物联网研究发展中心,未经江苏物联网研究发展中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410132973.0/2.html,转载请声明来源钻瓜专利网。





