[发明专利]文本处理方法、装置、设备以及存储介质在审

申请号：	202110507254.2	申请日：	2021-05-10
公开（公告）号：	CN113205384A	公开（公告）日：	2021-08-03
发明（设计）人：	沈广策;吴建伟;熊健	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G06Q30/06	分类号：	G06Q30/06;G06F40/279;G06F40/30
代理公司：	北京市铸成律师事务所 11313	代理人：	王一;王珺
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本处理方法装置设备以及存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开提供了一种文本处理方法、装置、设备以及存储介质，涉及人工智能、自然语言处理、大数据领域。具体实现方案为：获取待处理文本集和结构化文本集；构建每个参考结构化文本对应的第一模板表示；并且，对每个待处理文本进行结构化处理，得到每个待处理文本的候选结构化文本，构建候选结构化文本对应的第二模板表示；对第一模板表示和第二模板表示进行匹配，确定满足预设条件的模板匹配结果所对应的第二模板表示，将确定出的第二模板表示所对应的候选结构化文本添加至结构化文本集。根据本公开的技术，提高了对自然语言文本的处理效率和结构化信息的提取精度，并且降低了人力成本。

技术领域

本公开涉及数据处理技术领域，尤其涉及人工智能、自然语言处理、大数据领域。

背景技术

相关技术中的自然语言文本的结构化信息提取处理，尤其在商业推广领域中根据商品信息构建商品类目体系的应用场景中，通常采用客户表达和人工标注相结合的方式进行构建，面对数十万到百万量级的数据量，存在人工标注成本高、处理效率低的缺陷。

发明内容

本公开提供了一种文本处理方法、装置、设备以及存储介质。

根据本公开的一方面，提供了一种文本处理方法，包括：

获取待处理文本集和结构化文本集；其中，待处理文本集包含多个待处理文本，结构化文本集包含多个参考结构化文本；

构建每个参考结构化文本对应的第一模板表示；并且，对每个待处理文本进行结构化处理，得到每个待处理文本的候选结构化文本，构建候选结构化文本对应的第二模板表示；

对第一模板表示和第二模板表示进行匹配，确定满足预设条件的模板匹配结果所对应的第二模板表示，将确定出的第二模板表示所对应的候选结构化文本添加至结构化文本集。

根据本公开的另一方面，提供了一种文本处理模型的训练方法，包括：

利用待处理文本样本，确定目标结构化文本；