[发明专利]自动识别语句关系和实体的方法及装置在审
| 申请号: | 201710108288.8 | 申请日: | 2017-02-27 |
| 公开(公告)号: | CN106886516A | 公开(公告)日: | 2017-06-23 |
| 发明(设计)人: | 简仁贤;王海波 | 申请(专利权)人: | 竹间智能科技(上海)有限公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N99/00;G06N3/08 |
| 代理公司: | 北京酷爱智慧知识产权代理有限公司11514 | 代理人: | 任媛 |
| 地址: | 200233 上海市浦东新区自由贸*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 自动识别 语句 关系 实体 方法 装置 | ||
技术领域
本发明涉及智能识别术领域,具体涉及一种自动识别语句关系和实体的方法及装置。
背景技术
在人机对话系统中,我们常常要识别用户是否是在表达某些特定领域的信息,比如喜好、昵称等信息;如果用户是在表达这些信息,我们往往还需要能够精确提取到这些信息所指的具体对象。通常,这些信息可以通过关系和实体来进行表示。关系主要是指用户在表达什么样的信息,比如是否是喜好、昵称等;而实体则是指关系所指的具体对象。比如用户表达“我喜欢吃麻辣香锅”,对应的关系是“喜欢”,对应的实体是“麻辣香锅”。在对话系统中,如何自动识别这种特定领域的关系和实体是一个颇具挑战性的问题。
最常用来识别关系和实体的方法主要有两种:基于关键词和基于正则表达式。
基于关键词的方法主要是通过关键词来识别关系。以喜好为例,如果用户输入的句子中包含“喜欢”一词,就认为是在表达喜欢;如果包含“不喜欢”一词,就认为是在表达不喜欢。然后再结合语法依存分析或者语义角色标注(SRL)来提取该关系的实体。比如“我喜欢周杰伦”,其中包含喜欢,基于关键词的方法认为这句话是在表达“喜欢”;通过依存分析可以知道,“周杰伦”依存于核心词“喜欢”,因此喜欢的对象是“周杰伦”,即识别出的实体是“周杰伦”。基于关键词的方法的缺点是存在大量的误判,即包含某个关键词的句子并不一定必然表达该关系。拿上面的喜好为例,用户输入“我目前还说不好是不是喜欢周杰伦”,里面既包含关键词“喜欢”,表达的意思却是一种不确定的状态。如果根据里面包含“喜欢”,就认为是喜欢关系,就难免有失偏颇了。这个例子揭示了仅仅根据关键词本身还是无法判断出关系,因为关键词包含的信息有限。对于判断关系所需要的信息比关键词本身所包含的信息大的情形,比如“说不好是不是喜欢”所包含的信息比单独的“喜欢”一词的信息量要大,基于关键词的方法就无能为力了。
为了解决上面的问题,人们通常利用正则表达式来添加更多的限定条件,从而进行关系判断和实体抽取。比如通过正则表达式“我喜欢(.*)”来识别喜欢关系,表示只有句子中包含“我喜欢”的,才算是表达喜欢关系;后面的“(.*)”表示跟在“我喜欢”后面的所有文字,都认为是喜欢的对象,即实体。例如“我喜欢周杰伦”,可以识别到的关系是“喜欢”,实体是“周杰伦”。
基于正则表达式的方法也存在跟基于关键词的方法同样的缺点,即存在大量的误判,连不属于该关系的情形也被识别为该关系。基于正则表达式的方法的另一个缺点是实体提取的功能比较脆弱,常常会提取到错误的实体。比如“我喜欢周杰伦才怪”符合上面的“我喜欢(.*)”模式,而意思却截然相反,用户表达的是不喜欢的关系。如果根据上面的正则,系统识别为喜欢的关系,而喜欢的对象是“周杰伦才怪”;这种情况之下,关系和实体皆识别错误。
基于关键词和正则表达式的方法的另一个缺点是难以维护。由于自然语言表达的多样性,需要大量的关键词和正则表达式来覆盖各种各样的情形。而随着关键词和正则表达式的增多,系统也会变得很复杂。新增的关键词和正则表达式有可能跟现存在关键词和正则表达式相冲突。更糟的是,这种冲突通常比较隐蔽,人们通常很难事先判断是否存在这种冲突。很多情况是当出现问题之后,通过追踪问题的根源,才发现原来是规则之间的冲突所导致的。
基于SRL或者依存关系来提取实体也不尽完善。由于中文表达的复杂性,SRL或者依存关系本身的准确率就不高。这种准确性不高情况之下,再利用各种规则进行实体识别,其精度也会受到影响,导致实体提取不准确的问题。
综上所述,现有技术的缺陷如下:
1、关系判断不准确的问题。仅仅根据关键词或者正则,没有考虑到句子本身的语义,从而导致关系误判。
2、实体提取不准确的问题。根据正则表达式、SRL、语法分析、依存分析所提取到的实体,容易受到该方法本身存在的精度影响,导致实体提取错误。
3、随着规则的增多,系统复杂度变高,很难事先判断新增的规则是否能够与原有的规则兼容,因此系统难以维护。
发明内容
针对现有技术中的缺陷,本发明提供的自动识别语句关系和实体的方法及装置,利用深度学习,从语义上对用户输入进行判断,可以精准识别关系;将实体识别建模为序列标注问题,利用条件随机场求解最优标注,从而精准识别实体;结合深度学习和条件随机场,实现了关系和实体的自动化抽取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于竹间智能科技(上海)有限公司,未经竹间智能科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710108288.8/2.html,转载请声明来源钻瓜专利网。





