[发明专利]用于多层单词表示的语言特征生成的系统和方法有效
申请号: | 201780010468.0 | 申请日: | 2017-01-19 |
公开(公告)号: | CN108604228B | 公开(公告)日: | 2022-12-02 |
发明(设计)人: | E.施纳奇;R.莱维;N.斯洛尼姆 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/211 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 王珊珊 |
地址: | 美国纽*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 多层 单词 表示 语言 特征 生成 系统 方法 | ||
提供了一种计算机实现的方法,用于输出一个或多个跨层模式以识别文本中的目标语义现象,该方法包括:对于被指定为表示目标语义现象的多个训练文本片段的每个训练文本片段的至少一些单词的每个单词,提取由各个层定义的多个特征值;统计分析为多个训练文本片段识别的多个特征值,以识别包括表示共同模式的多个层的一个或多个跨层模式,共同跨层模式定义一个或多个单词的相应层的一个或多个特征值和另一个单词的另一个相应层的至少另一个特征值;并输出所识别的跨层图案以识别表示目标语义现象的文本片段。
背景技术
本发明在其一些实施例中涉及机器学习,并且更具体地但非排他地,涉及用于识别人类可读文本中的目标的自动机器学习的系统和方法。
已经开发了不同的方法来识别人类可读文本中的模式。例如,已经开发了一些方法来识别文本中的一对单词(主要是名词),这些单词在特定的、明确定义的语义关系中彼此相关。例如,作者标题,人物生日,上位词和缩写词。
发明内容
根据本发明的一些实施例的一方面,提供了一种用于输出一个或多个跨层模式以识别文本中的目标语义现象的计算机实现的方法,该方法包括:对于被指定为表示目标语义现象的多个训练文本片段的每个训练文本片段的至少一些单词的每个单词,提取由各个层定义的多个特征值;统计分析为多个训练文本片段识别的多个特征值,以识别包括表示多个训练文本片段的共同模式的多个层的一个或多个跨层模式,共同跨层模式定义至少一个单词的相应层的一个或多个特征值和另一个单词的另一个相应层的至少另一个特征值;和输出所识别的跨层模式,用于识别表示目标语义现象的文本片段。
可选地,该方法还包括训练统计分类器,以通过将从新文本片段提取的特征值与至少一个跨层模式匹配或相关来识别目标语义现象;存储或传输经过训练的统计分类器,用于分析新文本以识别代表该文本的新文本片段目标语义现象。可选地,对训练指定为不表示目标语义现象的文本片段执行识别,并且基于从被指定为不表示目标语义现象的训练文本片段中提取的特征值来训练分类器。
可选地,跨层模式包括至少一个负特征值,其不出现在包括目标语义现象的文本片段中。
可选地,跨层模式的每层是选自由以下各项组成的组的成员:语义,句法,领域知识,和通过任务专家的知识注入。可选地或另外地,跨层模式的每一层是选自由以下各项组成的组的成员:单词的词性(POS)标签,单词的上位词,由单词表示的命名实体,单词表示的情感,在预定词典中出现的单词。
可选地,跨层模式包括与多个不同层相关联的文本片段中的一个或多个单词。
可选地,针对一个或多个单词组合多个不同的层。
可选地,跨层模式包括文本片段中的两个或更多个不同的单词,每个单词与不同的层相关联。
可选地,与两个或更多个不同单词相关联的不同层由跨层模式内的顺序定义。
可选地,目标语义现象是由以下各项组成的组的成员:定义,提供支持或反对主题的证据的陈述,由实体在没有证据情况下做出的关于某个主题的事情就是这样的陈述,以及一个实体就某个主题表达的情感。
可选地,跨层模式包括在两个或更多个层之间的至少一个限定的间隙,每个层来自不同的单词。
可选地,通过迭代地组合特征来创建跨层模式以生成更长的跨层模式。可选地,该方法还包括在每次迭代结束时应用贪婪分析以识别根据准确预测的概率排序的顶部预定义数量的跨层模式。可选地,基于与其他先前选择的较高等级特征的相关性要求来选择顶部预定义数量的跨层模式。可选地或另外地,通过组合和按顺序添加另一个单词的另一个特征来执行组合特征。可选地或另外地,通过组合地添加相同单词的另一特征来执行组合特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780010468.0/2.html,转载请声明来源钻瓜专利网。