[发明专利]歌曲搜索中非语义、非词组的切换方法有效
申请号: | 201310211199.8 | 申请日: | 2013-05-31 |
公开(公告)号: | CN104216892B | 公开(公告)日: | 2018-01-02 |
发明(设计)人: | 王志常 | 申请(专利权)人: | 亿览在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京亿腾知识产权代理事务所11309 | 代理人: | 陈霁 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 歌曲 搜索 中非 语义 词组 切换 方法 | ||
技术领域
本申请涉及一种信息处理方法和信息处理装置,特别是涉及一种在信息搜索领域中对信息进行复式切词的切词处理方法和装置,尤其是歌曲搜索中非语义、非词组的切词方法和装置。
背景技术
在信息搜索领域,影响搜索结果质量的一个非常重要的因素就是切词技术。也就是在对搜索素材和用户的查询语句进行处理的时候,如何将文本切词成多个独立的单词,针对每个单词进行搜索然后做结果归并,这关系到检索的效率及准确度。
中文进行切词的时候,由于汉语的词是由单个字组成,并且在不同的语境下相同的字会有不同的组合意义,这导致汉语切词的复杂性很很高。比如:“日本人喜欢和服和樱花”和“我们需要食品和服装”中的“和服”这两个词分别是不同含义的,甚至于在后者中都不是一个词。
中文切词分为没有词典的一元、二元机械切词和词典辅助的最大匹配式切词。在通用搜索引擎领域,一般都使用基于词典的切词方案,同时和一些规则相结合,尽可能地按照文章原有的语义进行切词,然而,采用语义切词,需要综合考虑多种规则,而且硬件要求也高,通常需要pc机或较为复杂的系统才能实现。
但是在特定信息搜索领域,比如在歌曲搜索领域,需要进行搜索的领域一般只有歌手、歌曲和专辑等有限的几个域。歌曲在这几个域上的信息的语义性并不强。比如歌手领域,就是人名,没有什么语义包含在其中。歌曲名和专辑名相对有更多的语义,但是一般都是短文本,十几个汉字之内,不会有太丰富的语义。因此按照词典进行切词的意义并不大。甚至于按照词典切词会切出错误的结果。使用基本的一元切词或者二元切词反而有更好的匹配效果,并且,基于词典的切词方式,在实际应用中发现的问题是切词粒度较高,容错性较差,召回率在某些时候会比较低。
对于一元切词,其好处是切词的粒度小,在容错匹配的时候有较好的效果,召回率高。但是一元切词会导致每个词的文档列表过长,在数据归并的时候开销非常大。
对于二元切词,二元切词是在一元切词的基础上提出的方案,可以有效地减少词的文档列表长度,提高搜索的效率,但是在容错处理方面较差一些,召回率低一些。
发明内容
本发明的目的是提供一种信息处理方法,其可以用于对信息进行切词处理,该信息处理方法是基于一元切词、二元切词和词典切词融合的一种切词方法,但又不是机械的叠加,形成一种新的复式切词方法,在该方法的执行过程中,根据具体的情况针对歌曲信息搜索领域的特点以及用户搜索串的特点进行相应的判断,并分别根据不同的情况使用不同的切词和搜索方案,从而极大的提高搜索的效率和准确度。
本发明的另一个目的是提供一种信息处理的装置,采用上述信息处理方法针对不同的信息执行相应的切词和搜索功能,并能很快并准确的得到查询和搜索结果,该装置是根据相应的搜索领域的信息特点,定制相应的模块而得到的,避免了采用复杂的系统,同时还能大大增强搜索的效率和准确性。
本发明的所述信息处理方法所采取的技术方案如下:一种信息处理方法,其用于信息搜索领域中对信息进行复式切词处理,包括以下步骤:
1)建立属性词典,根据需要查询的信息的属性,建立相应的属性词典,将属性词典存储到相应的属性词典存储模块;
2)通过查询信息接收模块接收输入的查询信息,并将查询信息存储到相应的查询信息存储模块,
3)对接收到的查询信息进行首次判断,即判断是否属于最近预定时间段查询过的信息,如果是,则直接将最近的查询结果显示在显示模块上,同时将查询结果存储到查询信息存储模块中;
4)对接收到的查询信息进行第二次判断,判断查询信息是否属于属性词典中的信息,如果是,则将词典信息存储模块中存储的结果显示在显示模块上;
5)在判断不属于属性词典中的信息后,对接收到的查询信息采用复式切词模块进行复式切词;
6)采用搜索模块进行搜索;
7)将搜索到的结果显示在显示模块上。
进一步地,本发明上述方法所述的信息为歌曲信息。
进一步地,本发明上述方法的步骤1)中的属性词典是由歌曲库中的歌手名、歌曲名和专辑名建立的歌曲属性词典。
进一步地,本发明上述方法的步骤5)中的复式切词为混合切词,即一元切词和二元切词顺次交叠出现,每个二元词是两边的一元词的组合。
进一步地,本发明上述方法的步骤5)中的复式切词,还可以是根据两个词在文档库中的相关度进行切词,同时根据其各自的TF/IDF得分,进行相应的丢弃处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于亿览在线网络技术(北京)有限公司,未经亿览在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310211199.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种木塑板自动喷漆装置
- 下一篇:一种用于锚杆表面涂装的工装组件