[发明专利]实体提取方法和装置、计算机设备和存储介质有效
申请号: | 201710909581.4 | 申请日: | 2017-09-29 |
公开(公告)号: | CN108304372B | 公开(公告)日: | 2021-08-03 |
发明(设计)人: | 崔建苓 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 何平;邓云鹏 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 提取 方法 装置 计算机 设备 存储 介质 | ||
本发明提供一种实体提取方法和装置、计算机设备和存储介质,该实体提取方法包括:获取待提取的输入信息和场景信息;对输入信息进行预处理,得到输入信息的文本特征;根据场景信息确定对应的预先定义的实体正则表达式;根据文本特征识别得到输入信息的各实体,得到实体列表;根据对应的实体正则表达式,组合实体列表中各实体得到语句组合,并计算各语句组合的置信度;基于置信度大于预设阈值的语句组合的正则表达式,进行正则匹配,得到正则实体提取结果。由于能够借助预先预定的正则表达式进行实体提取,为第三方提供正则实体识别能力,能够节省第三方在冷启动阶段花费大量人力枚举所有实体或是大量标注的成本,便捷地识别具有特定语法和句式的表达式实体。
技术领域
本发明涉及数据处理技术领域,特别是涉及一种实体提取方法和装置、计算机设备和存储介质。
背景技术
实体提取也叫命名实体识别,是自然语言处理的基础问题。在自然语言处理中,实体主要包括实体名,如地名、组织机构名、人名、数字和领域专有名词,以及一些表达式,如数字表达式(公式、货币值、分数)、时间表达式、字符串表达式等。识体识别的应用领域例如信息抽取、信息检索、机器翻译和问答系统等。
经典的命名实体算法有最大熵、隐式马尔科夫、最大熵-隐式马尔科夫、条件随机场、深度学习-条件随机场等统计方法,还有一些规则化方法,如正则表达式、词典匹配、词典模糊匹配等方法。
传统实体识别算法基于大量统计进行识别,而在具体应用中,例如垂直问答系统使用初期,很少有很多标注数据,数据需要大量依靠人工标注。而人工标注需要耗费大量的时间成本和人力成本。
发明内容
基于此,有必要针对人工标注需要耗费大量的时间成本和人力成本的问题,提供一种实体提取方法和装置、计算机设备和存储介质。
为达到上述目的,一个实施例采用以下技术方案:
一种实体提取方法,包括:
获取待提取的输入信息和场景信息;
对所述输入信息进行预处理,得到所述输入信息的文本特征;
根据所述场景信息确定对应的预先定义的实体正则表达式;
根据所述文本特征识别得到所述输入信息的各实体,得到实体列表;
根据对应的所述实体正则表达式,组合所述实体列表中各实体得到语句组合,并计算各语句组合的置信度;
基于置信度大于预设阈值的语句组合的正则表达式,进行正则匹配,得到正则实体提取结果。
一种实体提取装置,包括:信息获取模块、预处理模块、查找模块、识别模块、组合模块和匹配模块;
所述信息获取模块,用于获取待提取的输入信息和场景信息;
所述预处理模块,用于对所述输入信息进行预处理,得到所述输入信息的文本特征;
所述查找模块,用于根据所述场景信息确定对应的预先定义的实体正则表达式;
所述识别模块,用于根据所述文本特征识别得到所述输入信息的各实体,得到实体列表;
所述组合模块,用于根据对应的所述实体正则表达式,组合所述实体列表中各实体得到语句组合,并计算各语句组合的置信度;
所述匹配模块,用于基于置信度大于预设阈值的语句组合的正则表达式,进行正则匹配,得到正则实体提取结果。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的实体提取方法的步骤。
一种存储介质,其上存储有计算机程序,该程序被处理器执行时,实现上述的实体提取方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710909581.4/2.html,转载请声明来源钻瓜专利网。