[发明专利]文本处理方法、装置、电子设备和存储介质在审

申请号：	202110139483.3	申请日：	2021-02-01
公开（公告）号：	CN113761175A	公开（公告）日：	2021-12-07
发明（设计）人：	李浩然	申请（专利权）人：	北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司
主分类号：	G06F16/34	分类号：	G06F16/34;G06F16/35;G06F40/216;G06K9/62
代理公司：	中科专利商标代理有限责任公司 11021	代理人：	王文思
地址：	100176 北京市大兴区北京经济***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本处理方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开提供了一种文本处理方法、装置、电子设备和存储介质，应用于文本处理技术领域，包括：获取商品的介绍文本，该介绍文本包括多个句子，将介绍文本划分为多个部分，并确定多个部分的每个部分的中心句，在每个部分中，按照随机变量P～E(λ)进行采样，得到每个部分对应的采样句，将每个部分对应的采样句进行合并，得到输入文本。

技术领域

本公开涉及文本处理技术领域，更具体地，涉及一种文本处理方法、装置、电子设备和存储介质。

背景技术

在实际应用上，对于不同的产品类目，数据存在严重的分布不均衡现象、长尾现象。有些类目，比如常见的电器，上衣，裙子等，有数以万计的数据，而有些类目，比如某些服饰的配件，领带、下摆、扣子等，数据量不足100，一般的，将这个数据量较少的类目成为小样本类目。

在实现本公开构思的过程中，发明人发现这些数据量较少的类目数量众多，如果不经过数据增强处理，无法对这些类目生成高质量的商品摘要。

发明内容

有鉴于此，本公开提供了一种可以生成多种多样的商品输入文本的文本处理方法、装置、电子设备和存储介质。

本公开的一个方面提供了一种文本处理方法，包括：

获取商品的介绍文本，所述介绍文本包括多个句子；

将所述介绍文本划分为多个部分，并确定所述多个部分的每个部分的中心句；

在所述每个部分中，按照随机变量P～E(λ)进行采样，得到所述每个部分对应的采样句，其中，λ＝1/进行采样的部分中的句子数量，P表示取与所述部分的中心句距离排序为i的句子的概率，E(·)表示指数分布；

将所述每个部分对应的采样句进行合并，得到输入文本，所述输入文本用于生成所述商品的摘要。