[发明专利]通配符类模板泛化方法和装置、通用模板泛化方法和系统有效
申请号: | 201110452249.2 | 申请日: | 2011-12-29 |
公开(公告)号: | CN103186509A | 公开(公告)日: | 2013-07-03 |
发明(设计)人: | 黄际洲;钟华 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 袁媛 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 通配符 模板 泛化 方法 装置 通用 系统 | ||
【技术领域】
本发明涉及计算机技术领域,特别涉及一种通配符类模板泛化方法和装置、通用模板泛化方法和系统。
【背景技术】
所谓模板泛化指的是从大量的文本对象中抽象出相似的模板,并用该模板反应一类文本对象的表述方式的过程。模板泛化在搜索需求识别、网页类型识别以及主题识别等技术中都是十分重要的组成部分,例如在搜索需求识别中,利用大量具有某类需求的搜索项(query)进行模板泛化,从而利用泛化得到的模板进行该类需求的query识别。
其中模板可以包含通配符槽、词典槽、函数槽以及固定词语中的至少一种构成,例如模板“[D:明星][D:电视剧][W:0-6]剧照[F:数字]”,其中,[D:明星]和[D:电视剧]属于词典槽,分别表示可匹配明星名和电视剧名,[W:0-6]为通配符槽,表示可匹配长度为0至6的任意词语,“剧照”是固定词语,[F:数字]为函数槽,表示可匹配识别为数字的词语。
基于上述模板的构成,模板泛化的方式可以包括:词典类泛化、函数类泛化以及通配符类泛化。其中通配符类泛化时将query的修饰限定词泛化为通配符槽,保留主干词,得到带有通配符槽的模板。通配符类泛化过程中首先分别针对各文本对象进行分词处理,然后基于分词处理后得到的各词项的概率确定通配符槽和固定词语。然而在现有的通配符类泛化过程中存在如下问题:在分词处理过程可能将某些应该是一个词项的切分为多个词项,例如对于“百度公司招聘”这一文本对象,如果分词处理过程所使用的词典中不存在“百度”和“百度公司”这两个词语,则可能被切分为“百/度/公司/招聘”,其中“/”用于标识切分位置,在本发明的后续实施例中均采用这种标识方式。基于该分词结果的通配符类泛化显然不能得到准确的模板,例如可能得到[W:0-2]度公司招聘,这就大大降低了模板的召回率和识别准确性。
【发明内容】
本发明提供了一种通配符类模板泛化方法和装置、通用模板泛化方法和系统,以便于提高泛化得到的模板的召回率和识别准确性。
具体技术方案如下:
一种通配符类模板泛化方法,对模板泛化所采用语料中的各文本对象分别执行以下步骤:
S11、对当前文本对象进行分词处理;
S12、利用分词结果中相邻词项粘接成一个词项的所有可能的组合,确定各粘接结果,该粘接结果中包含所述分词结果;
S13、分别针对各粘接结果,将粘接结果中所有进行粘接的相邻词项的粘接概率以及保持拆分的相邻词项的拆分概率相乘得到粘接结果的概率;
S14、基于概率最大的粘接结果确定通配符槽和固定词语,得到当前文本对象的通配符类模板。
根据本发明一优选实施例,在所述步骤S12中参与粘接的相邻词项为:字与字之间,和/或,字与词之间。
根据本发明一优选实施例,在所述步骤S13中,如果相邻词项分别为A和B,则A和B的粘接概率P(A+B)和拆分概率P′(A-B)分别为:
P(A+B)=P(A|B)×P′(B|A)
P(A-B)=(1-P(A|B))×(1-P′(B|A))
其中,P(A|B)为A出现在B前面的次数与B出现且B之前有词项的次数的比值,P′(B|A)为A出现在B前面的次数与A出现且A之后有词项的次数的比值。
根据本发明一优选实施例,所述步骤S14具体为:
将所述概率最大的粘接结果中,词频tf-逆向文档频率idf值小于预设阈值的词项,或者tf-idf值小于预设阈值且排在后N个的词项替换为通配符槽,其余词项作为固定词语,所述通配符槽指示的通配符长度为被替换词项的长度,所述N为预设的正整数。
根据本发明一优选实施例,该方法还包括:对所述语料中的各文本对象的通配符类模板进行整合,具体为:将仅通配符槽指示通配符长度不同的通配符类模板整合为一个模板,整合后的模板中通配符槽指示的通配符长度为被整合通配符类模板中指示的最大通配符长度。
一种通用模板泛化方法,该方法包括上述的通配符类模板泛化方法,以及,
S2、对模板泛化所采用语料中的各文本对象进行词典类模板泛化,得到各文本对象的词典类模板;和/或,对模板泛化所采用语料中的各文本对象进行函数类模板泛化,得到各文本对象的函数类模板;
S4、对同一文本对象得到的各模板进行合并处理。
根据本发明一优选实施例,在所述步骤S4中采用以下策略中的至少一种进行所述合并处理:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110452249.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:跳落承接装置
- 下一篇:一种安全式胰岛素注射器