[发明专利]文本处理方法、装置、电子设备和存储介质在审
申请号: | 202110139483.3 | 申请日: | 2021-02-01 |
公开(公告)号: | CN113761175A | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 李浩然 | 申请(专利权)人: | 北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/35;G06F40/216;G06K9/62 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 王文思 |
地址: | 100176 北京市大兴区北京经济*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 装置 电子设备 存储 介质 | ||
本公开提供了一种文本处理方法、装置、电子设备和存储介质,应用于文本处理技术领域,包括:获取商品的介绍文本,该介绍文本包括多个句子,将介绍文本划分为多个部分,并确定多个部分的每个部分的中心句,在每个部分中,按照随机变量P~E(λ)进行采样,得到每个部分对应的采样句,将每个部分对应的采样句进行合并,得到输入文本。
技术领域
本公开涉及文本处理技术领域,更具体地,涉及一种文本处理方法、装置、电子设备和存储介质。
背景技术
在实际应用上,对于不同的产品类目,数据存在严重的分布不均衡现象、长尾现象。有些类目,比如常见的电器,上衣,裙子等,有数以万计的数据,而有些类目,比如某些服饰的配件,领带、下摆、扣子等,数据量不足100,一般的,将这个数据量较少的类目成为小样本类目。
在实现本公开构思的过程中,发明人发现这些数据量较少的类目数量众多,如果不经过数据增强处理,无法对这些类目生成高质量的商品摘要。
发明内容
有鉴于此,本公开提供了一种可以生成多种多样的商品输入文本的文本处理方法、装置、电子设备和存储介质。
本公开的一个方面提供了一种文本处理方法,包括:
获取商品的介绍文本,所述介绍文本包括多个句子;
将所述介绍文本划分为多个部分,并确定所述多个部分的每个部分的中心句;
在所述每个部分中,按照随机变量P~E(λ)进行采样,得到所述每个部分对应的采样句,其中,λ=1/进行采样的部分中的句子数量,P表示取与所述部分的中心句距离排序为i的句子的概率,E(·)表示指数分布;
将所述每个部分对应的采样句进行合并,得到输入文本,所述输入文本用于生成所述商品的摘要。
根据本公开的实施例,所述确定所述多个部分的每个部分的中心句包括:
在所述每个部分中,随机获取所述部分中的任意一个句子作为对应的中心句。
根据本公开的实施例,所述确定所述多个部分的每个部分的中心句包括:
计算所述每个部分包括的句子两两之间的相似度,
在所述每个部分中,计算每个句子分别与其它句子的相似度的和,得到所述每个部分中每个句子的总相似度;
在所述每个部分中,选取总相似度最高的句子作为对应的中心句。
根据本公开的实施例,所述将所述介绍文本划分为多个部分包括:
利用聚类算法,将所述多个句子中的至少部分句子分割为所述多个部分。
根据本公开的实施例,还包括:
获取基于所述输入文本得到的所述商品的多个摘要;
根据所述多个摘要,构建多个训练样本,每个所述训练样本包括两个不同的摘要,所述两个不同的摘要中的一个摘要作为预设摘要生成模型的输入,另一个摘要作为所述摘要生成模型的输出;
利用所述多个训练样本,训练所述摘要生成模型,得到训练好的摘要生成模型,所述训练好的摘要生成模型用于根据所述商品的多个摘要中的任意一个摘要,生成与所述商品的多个摘要相同或不同的所述商品的摘要。
根据本公开的实施例,还包括:
将所述商品的多个摘要中的任意一个摘要输入所述训练好的摘要生成模型,生成与所述商品的多个摘要相同或不同的所述商品的摘要。
根据本公开的实施例,所述摘要生成模型为基于RNN、CNN或Transformer的sequence-to-sequence模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司,未经北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110139483.3/2.html,转载请声明来源钻瓜专利网。