[发明专利]结构化处理方法、装置、计算机设备及介质在审
申请号: | 201911324544.2 | 申请日: | 2019-12-20 |
公开(公告)号: | CN111078825A | 公开(公告)日: | 2020-04-28 |
发明(设计)人: | 贾巍;戴岱;肖欣延 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/35;G06F40/289 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 石茵汀 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结构 处理 方法 装置 计算机 设备 介质 | ||
本申请公开了一种结构化处理方法、装置、计算机设备及介质,涉及自然语言处理领域的信息处理技术领域。具体实现方案为:通过获取非结构化文本;将非结构化文本输入编码‑解码模型,以得到输出序列;编码‑解码模型是采用标注过设定各属性的属性值的训练文本训练得到;根据输出序列中各属性元素对应的属性,以及相应属性元素包含的属性值,生成结构化表示。该方法通过将非结构化文本输入编码‑解码模型,得到包含有多个属性元素和对应属性的属性值的输出序列,以根据输出序列生成结构化表示,使得对于不同场景的非结构化文本进行结构化抽取时,仅需要设置不同的属性,人工标注训练文本后重新对模型进行训练即可,提高了模型的移植性和通用性。
技术领域
本申请涉及自然语言处理领域的信息处理技术领域,尤其设计一种结构化处理方法、装置、计算机设备及介质。
背景技术
在各个行业中,普遍存在以自然语言记录的文本,通常把这类文本定义为非结构化文本,如财务报表、新闻、病历等等。目前,在舆情分析、传播分析、数据平台服务等应用场景都存在结构化信息抽取的需求,即从非结构化文本中提取需要的结构化字段,如,从财务报表中提取公司名称、从新闻中提取袭击事件的地点、从病历中提取患者的情况,等等。
但是,现有的结构化信息抽取方法是由开发人员进行编程开发和定制的,对于不同的应用场景需要设置不同的抽取策略,使得抽取方法的场景移植性较弱。
发明内容
本申请第一方面实施例提出了一种结构化处理方法,包括:
获取非结构化文本;
将所述非结构化文本输入编码-解码模型,以得到输出序列;所述输出序列中包含多个属性元素,每一个属性元素与设定的一个属性相对应,各属性元素包含对应属性的属性值;其中,所述编码-解码模型是采用标注过设定各属性的属性值的训练文本训练得到;
根据所述输出序列中各属性元素对应的属性,以及相应属性元素包含的属性值,生成结构化表示。
作为本申请实施例的第一种可能的实现方式,所述编码-解码模型包括编码器和解码器;所述将所述非结构化文本输入编码-解码模型,以得到输出序列,包括:
对所述非结构化文本切词,得到多个词元素;
对所述多个词元素顺序排列,得到输入序列;
将所述输入序列中的多个词元素输入所述编码器,进行语义编码,得到相应词元素的隐状态向量;其中,所述隐状态向量,用于指示相应词元素及其上下文的语义;
采用所述解码器,对各隐状态向量解码,得到所述输出序列中的各属性值;其中,所述解码器已学习得到各隐状态向量针对每一个属性值的注意力权重,以及依据所述注意力权重加权后的隐状态向量与相应属性值之间的映射关系。
作为本申请实施例的第二种可能的实现方式,所述输出序列为数据交换格式;所述数据交换格式的输出序列中包含至少一个对象,每一个对象包含所述多个属性元素;
所述将所述非结构化文本输入编码-解码模型,以得到输出序列之前,还包括:
获取多个训练文本;每一个所述训练文本具有对应的一个数据交换格式的标注信息,所述标注信息包含至少一个与训练文本中描述的实体相对应的对象,每一个对象包含用于描述相应实体各属性的属性值;其中,在同一对象中各属性的属性值之间的排序,与所述输出序列中相应属性的属性元素排序相同;
采用所述多个训练文本对所述编码-解码模型训练,以使所述编码-解码模型的输出序列与相应的标注信息之间的误差最小化。
作为本申请实施例的第三种可能的实现方式,所述根据所述输出序列中各属性元素对应的属性,以及相应属性元素包含的属性值,生成结构化表示,包括:
从所述数据交换格式的输出序列中,提取属于同一对象的属性元素;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911324544.2/2.html,转载请声明来源钻瓜专利网。