[发明专利]基于符号空间的模式压缩的多层系统有效
| 申请号: | 201380030434.X | 申请日: | 2013-06-17 |
| 公开(公告)号: | CN104583972A | 公开(公告)日: | 2015-04-29 |
| 发明(设计)人: | I·赖切尔高兹;K·奥迪内夫;Y·Y·泽维 | 申请(专利权)人: | 科尔蒂卡有限公司;I·赖切尔高兹;K·奥迪内夫;Y·Y·泽维 |
| 主分类号: | G06F12/00 | 分类号: | G06F12/00 |
| 代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 谭英强 |
| 地址: | 以色列*** | 国省代码: | 以色列;IL |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 符号 空间 模式 压缩 多层 系统 | ||
相关申请的交叉引用
本申请拥有2013年2月12日提交的美国临时申请No.61/763,554的权益,其内容以引用的形式并入文中。
技术领域
本发明主要涉及模式识别和大数据,特别涉及一种利用模式识别技术和大数据存储和分析理论的系统和方法。
背景技术
人们一直努力进行模式识别并且为了存储而合理地对其进行组合,尤其是以一种紧凑的方式。然而除非特别指定,不能认为所有的模式在数据中都是均匀分布的。因为有些模式要比其他模式更加突出,它们发生的可能性更大,而其他模式却非常不常见。此外,一些模式彼此相关,共同形成模式组合,这也是非常普遍的。这就为模式识别系统的应用带来了问题。例如,为了对两个内容段的相似度测量进行检索,单单考虑对应模式的数量是不够的,还要考虑每个模式发生的概率。此外,还要考虑模式之间的关联性。例如,如果两个模式总是同时同现,则它们实质上仅包括单个模式的信息。
该影响进而会不利于模式识别系统的可扩展性和精度。即,当处理模式识别系统的跨多个机器的不同模式时,则大部分处理“不普遍”模式的机器会保持闲置,而少数处理“普遍”模式的机器则会超负载访问。同时由于模式之间的关联性,也不可能根据它们的先验概率进行模式处理的分布,其中模式之间的关联性无法进行假设。此外,通常扩展模式识别系统优选应该避免模式空间的重复,并且不需要使每个机器保留一份模式的拷贝。
在一些示例中,手动将多个符号,如模式,减少为更少的容易识别的可控符号。例如,就像一组合成和弦的音符。和弦是两个或两个以上用来演奏的音符,或者其他听起来像同时演奏的组合。然而,由于和弦本身具有重复性,因此为了减少提供给演奏者的音符数量,将音符序列简化为和弦符号,用来代表多个音符。因此,标记为C7的和弦表示演奏者演奏主音符A、第三C小调C以及纯五度E,从而它们听起来像是同时演奏的。人们可以容易地将和弦符号译为其指代的特定符号。类似地,可以根据特定的规则,手动构建两组符号的映射,该规则可以添加、删除或者根据需要进行修改。
为模式识别提供一种有效的技术方案,克服现有技术的缺陷—特别是需要人工干预识别过程的缺陷—是非常有益的。
发明内容
此处公开的一些实施例公开了一种基于符号空间的模式压缩的方法。该方法包括接收输入序列,该输入序列具有第一长度,并且包括多个符号;提取输入序列中的所有的共同模式,其中共同模式包括至少两个符号;生成对应于所有共同模式的提取的输出序列,其中输出序列具有第二长度,其中第二长度要短于第一长度;在存储器中存储输出序列,作为数据层,其中输出序列作为后续生成数据层的新的输入序列。
此处公开的一些实施例还包括基于符号空间的模式压缩的装置。该装置包括处理单元;连接到该处理单元的接口,该接口配置为接收输入序列,该输入序列具有第一长度并且包括多个符号;以及连接到处理单元的存储器,并配置为在存储器中存储多个指令,当处理单元执行该指令时表现为:提取输入序列中所有的共同模式,其中共同模式包括至少两个符号;生成与所有共同模式对应的输出序列,其中输出序列具有第二长度,第二长度要短于第一长度;在存储器中存储输出序列,作为数据层;并且提供输出序列,作为后续生成数据层的新的输入序列。
此处公开的一些实施例还包括大数据存储系统。该系统包括用于存储由Cortex函数依次生成,对应于输入序列的多个数据层的存储器单元,其中每个数据层包括在该数据层中使用的符号集合,其中每个生成的数据层的符号空间小于任何后续生成的数据层的符号空间,其中每一个生成的数据层都比任何后续生成的数据层更不恒定、更不具有重复性、更相关并且更不均衡。
附图说明
在说明书结束时,权利要求书会特别指出并明确声明本文公开的主题。上述和本发明的其他对象、特征及优势可以通过下文详细描述并结合附图而明显。
图1所示为根据一实施例的具有第一符号空间的作为用于处理的输入的初始符号序列;
图2所示为根据一实施例的用于映射输入序列并确定符号序列的替换符号的第一等级表;
图3所示为根据一实施例,由大于第一符号空间的第二符号空间构成的表示减少数量的符号的符号序列;
图4所示为根据一实施例的用于映射输入序列并确定符号序列的替换符号的第二等级表;
图5所示为根据一实施例,由大于第二符号空间的第三符号空间构成的表示减少数量的符号的序列;
图6所示为根据另一实施例的用于映射输入序列并确定符号序列的替换符号的第三等级表;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科尔蒂卡有限公司;I·赖切尔高兹;K·奥迪内夫;Y·Y·泽维;,未经科尔蒂卡有限公司;I·赖切尔高兹;K·奥迪内夫;Y·Y·泽维;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201380030434.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:词检测和域字典推荐
- 下一篇:用于受管运行时中的元素的命令式属性





