[发明专利]文本处理方法、装置、设备以及存储介质在审
申请号: | 202110507254.2 | 申请日: | 2021-05-10 |
公开(公告)号: | CN113205384A | 公开(公告)日: | 2021-08-03 |
发明(设计)人: | 沈广策;吴建伟;熊健 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06Q30/06 | 分类号: | G06Q30/06;G06F40/279;G06F40/30 |
代理公司: | 北京市铸成律师事务所 11313 | 代理人: | 王一;王珺 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 装置 设备 以及 存储 介质 | ||
本公开提供了一种文本处理方法、装置、设备以及存储介质,涉及人工智能、自然语言处理、大数据领域。具体实现方案为:获取待处理文本集和结构化文本集;构建每个参考结构化文本对应的第一模板表示;并且,对每个待处理文本进行结构化处理,得到每个待处理文本的候选结构化文本,构建候选结构化文本对应的第二模板表示;对第一模板表示和第二模板表示进行匹配,确定满足预设条件的模板匹配结果所对应的第二模板表示,将确定出的第二模板表示所对应的候选结构化文本添加至结构化文本集。根据本公开的技术,提高了对自然语言文本的处理效率和结构化信息的提取精度,并且降低了人力成本。
技术领域
本公开涉及数据处理技术领域,尤其涉及人工智能、自然语言处理、大数据领域。
背景技术
相关技术中的自然语言文本的结构化信息提取处理,尤其在商业推广领域中根据商品信息构建商品类目体系的应用场景中,通常采用客户表达和人工标注相结合的方式进行构建,面对数十万到百万量级的数据量,存在人工标注成本高、处理效率低的缺陷。
发明内容
本公开提供了一种文本处理方法、装置、设备以及存储介质。
根据本公开的一方面,提供了一种文本处理方法,包括:
获取待处理文本集和结构化文本集;其中,待处理文本集包含多个待处理文本,结构化文本集包含多个参考结构化文本;
构建每个参考结构化文本对应的第一模板表示;并且,对每个待处理文本进行结构化处理,得到每个待处理文本的候选结构化文本,构建候选结构化文本对应的第二模板表示;
对第一模板表示和第二模板表示进行匹配,确定满足预设条件的模板匹配结果所对应的第二模板表示,将确定出的第二模板表示所对应的候选结构化文本添加至结构化文本集。
根据本公开的另一方面,提供了一种文本处理模型的训练方法,包括:
利用待处理文本样本,确定目标结构化文本;
将待处理文本样本输入待训练的文本处理模型,得到预测结构化文本;
根据目标结构化文本和预测结构化文本的差异,对待训练的文本处理模型进行训练,直至差异在允许范围内。
根据本公开的另一方面,提供了一种文本处理装置,包括:
文本集获取模块,用于获取待处理文本集和结构化文本集;其中,待处理文本集包含多个待处理文本,结构化文本集包含多个参考结构化文本;
模板表示构建模块,用于构建每个参考结构化文本对应的第一模板表示;并且,用于对每个待处理文本进行结构化处理,得到每个待处理文本的候选结构化文本,构建候选结构化文本对应的第二模板表示;
匹配模块,用于对第一模板表示和第二模板表示进行匹配,确定满足预设条件的模板匹配结果所对应的第二模板表示,将确定出的第二模板表示所对应的候选结构化文本添加至结构化文本集。
根据本公开的另一方面,提供了一种文本处理模型的训练装置,包括:
目标结构化文本确定模块,用于利用待处理文本样本,确定目标结构化文本;
预测结构化文本获取模块,用于将待处理文本样本输入待训练的文本处理模型,得到预测结构化文本;
训练模块,用于根据目标结构化文本和预测结构化文本的差异,对待训练的文本处理模型进行训练,直至差异在允许范围内。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与该至少一个处理器通信连接的存储器;其中,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110507254.2/2.html,转载请声明来源钻瓜专利网。