[发明专利]通配符类模板泛化方法和装置、通用模板泛化方法和系统有效
申请号: | 201110452249.2 | 申请日: | 2011-12-29 |
公开(公告)号: | CN103186509A | 公开(公告)日: | 2013-07-03 |
发明(设计)人: | 黄际洲;钟华 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 袁媛 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 通配符 模板 泛化 方法 装置 通用 系统 | ||
1.一种通配符类模板泛化方法,其特征在于,对模板泛化所采用语料中的各文本对象分别执行以下步骤:
S11、对当前文本对象进行分词处理;
S12、利用分词结果中相邻词项粘接成一个词项的所有可能的组合,确定各粘接结果,该粘接结果中包含所述分词结果;
S13、分别针对各粘接结果,将粘接结果中所有进行粘接的相邻词项的粘接概率以及保持拆分的相邻词项的拆分概率相乘得到粘接结果的概率;
S14、基于概率最大的粘接结果确定通配符槽和固定词语,得到当前文本对象的通配符类模板。
2.根据权利要求1所述的方法,其特征在于,在所述步骤S12中参与粘接的相邻词项为:字与字之间,和/或,字与词之间。
3.根据权利要求1所述的方法,其特征在于,在所述步骤S13中,如果相邻词项分别为A和B,则A和B的粘接概率P(A+B)和拆分概率P′(A-B)分别为:
P(A+B)=P(A|B)×P′(B|A)
P(A-B)=(1-P(A|B))×(1-P′(B|A))
其中,P(A|B)为A出现在B前面的次数与B出现且B之前有词项的次数的比值,P′(B|A)为A出现在B前面的次数与A出现且A之后有词项的次数的比值。
4.根据权利要求1所述的方法,其特征在于,所述步骤S14具体为:
将所述概率最大的粘接结果中,词频tf-逆向文档频率idf值小于预设阈值的词项,或者tf-idf值小于预设阈值且排在后N个的词项替换为通配符槽,其余词项作为固定词语,所述通配符槽指示的通配符长度为被替换词项的长度,所述N为预设的正整数。
5.根据权利要求1所述的方法,其特征在于,该方法还包括:对所述语料中的各文本对象的通配符类模板进行整合,具体为:将仅通配符槽指示通配符长度不同的通配符类模板整合为一个模板,整合后的模板中通配符槽指示的通配符长度为被整合通配符类模板中指示的最大通配符长度。
6.一种通用模板泛化方法,其特征在于,该方法包括如权利要求1至4任一权项所述的通配符类模板泛化方法,以及,
S2、对模板泛化所采用语料中的各文本对象进行词典类模板泛化,得到各文本对象的词典类模板;和/或,对模板泛化所采用语料中的各文本对象进行函数类模板泛化,得到各文本对象的函数类模板;
S4、对同一文本对象得到的各模板进行合并处理。
7.根据权利要求6所述的通用模板泛化方法,其特征在于,在所述步骤S4中采用以下策略中的至少一种进行所述合并处理:
策略一、如果同一个文本对象泛化出的模板中,同一个词项被泛化成多种类型的槽,则按照预设的槽类型优先级顺序保留其中一种类型的槽;
策略二、如果同一个文本对象泛化出的模板中,词典槽包含通配符槽或函数槽,则保留词典槽;
策略三、如果同一个文本对象泛化出的模板中各槽均没有相互覆盖,则在合并结果中保留所有槽。
8.根据权利要求6所述的通用模板泛化方法,其特征在于,在所述步骤S4之后还包括:
S5、合并重复的模板;
S6、统计各模板所来源的文本对象数量,选择所来源的文本对象数量满足预设要求的模板作为最终的泛化结果;
其中所述预设要求为:所来源的文本对象数量排在前M个,M为预设的正整数,或者,所来源的文本对象数量大于预设的数量阈值。
9.一种通配符类模板泛化装置,其特征在于,该装置包括:
分词处理单元,用于分别获取模板泛化所采用语料中的各文本对象,对获取的当前文本对象进行分词处理;
粘接处理单元,用于利用分词结果中相邻词项粘接成一个词项的所有可能的组合,确定各粘接结果,该粘接结果中包含所述分词结果;
概率计算单元,用于分别针对各粘接结果,将粘接结果中所有进行粘接的相邻词项的粘接概率以及保持拆分的相邻词项的拆分概率相乘得到粘接结果的概率;
模板产生单元,用于基于概率最大的粘接结果确定通配符槽和固定词语,得到所述当前文本对象的通配符类模板。
10.根据权利要求9所述的装置,其特征在于,所述粘接处理单元在确定粘接结果时,参与粘接的相邻词项为:字与字之间,和/或,字与词之间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110452249.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:跳落承接装置
- 下一篇:一种安全式胰岛素注射器