[发明专利]文本处理方法、装置、电子设备和存储介质在审
申请号: | 202110139483.3 | 申请日: | 2021-02-01 |
公开(公告)号: | CN113761175A | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 李浩然 | 申请(专利权)人: | 北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/35;G06F40/216;G06K9/62 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 王文思 |
地址: | 100176 北京市大兴区北京经济*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 装置 电子设备 存储 介质 | ||
1.一种文本处理方法,包括:
获取商品的介绍文本,所述介绍文本包括多个句子;
将所述介绍文本划分为多个部分,并确定所述多个部分的每个部分的中心句;
在所述每个部分中,按照随机变量P~E(λ)进行采样,得到所述每个部分对应的采样句,其中,λ=1/进行采样的部分中的句子数量,P表示取与所述部分的中心句距离排序为i的句子的概率,E(·)表示指数分布;
将所述每个部分对应的采样句进行合并,得到输入文本,所述输入文本用于生成所述商品的摘要。
2.根据权利要求1所述的方法,所述确定所述多个部分的每个部分的中心句包括:
在所述每个部分中,随机获取所述部分中的任意一个句子作为对应的中心句。
3.根据权利要求1所述的方法,所述确定所述多个部分的每个部分的中心句包括:
计算所述每个部分包括的句子两两之间的相似度,
在所述每个部分中,计算每个句子分别与其它句子的相似度的和,得到所述每个部分中每个句子的总相似度;
在所述每个部分中,选取总相似度最高的句子作为对应的中心句。
4.根据权利要求1所述的方法,所述将所述介绍文本划分为多个部分包括:
利用聚类算法,将所述多个句子中的至少部分句子分割为所述多个部分。
5.根据权利要求1至4任意一项所述的方法,还包括:
获取基于所述输入文本得到的所述商品的多个摘要;
根据所述多个摘要,构建多个训练样本,每个所述训练样本包括两个不同的摘要,所述两个不同的摘要中的一个摘要作为预设摘要生成模型的输入,另一个摘要作为所述摘要生成模型的输出;
利用所述多个训练样本,训练所述摘要生成模型,得到训练好的摘要生成模型,所述训练好的摘要生成模型用于根据所述商品的多个摘要中的任意一个摘要,生成与所述商品的多个摘要相同或不同的所述商品的摘要。
6.根据权利要求5所述的方法,还包括:
将所述商品的多个摘要中的任意一个摘要输入所述训练好的摘要生成模型,生成与所述商品的多个摘要相同或不同的所述商品的摘要。
7.根据权利要求5所述的方法,所述摘要生成模型为基于RNN、CNN或Transformer的sequence-to-sequence模型。
8.一种文本处理装置,包括:
获取模块,用于获取商品的介绍文本,所述介绍文本包括多个句子;
划分模块,用于将所述介绍文本划分为多个部分;
确定模块,用于确定所述每个部分的中心句;
采样模块,用于在所述每个部分中,按照随机变量P~E(λ)进行采样,得到所述每个部分对应的采样句,其中,λ=1/进行采样的部分中的句子数量,P表示取与所述部分的中心句距离排序为i的句子的概率,E(·)表示指数分布;
合并模块,用于将所述每个部分对应的采样句进行合并,得到输入文本,所述输入文本用于生成所述商品的摘要。
9.根据权利要求8所述的装置,还包括:
生成模块,用于基于所述输入文本,生成所述商品的多个摘要;
构建模块,用于根据所述多个摘要,构建多个训练样本,每个所述训练样本包括两个不同的摘要,所述两个不同的摘要中的一个摘要作为预设摘要生成模型的输入,另一个摘要作为所述摘要生成模型的输出;
训练模块,用于利用所述多个训练样本,训练所述摘要生成模型,得到训练好的摘要生成模型,所述训练好的摘要生成模型用于根据所述商品的多个摘要中的任意一个摘要,生成与所述商品的多个摘要相同或不同的所述商品的摘要。
10.一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至7中任一项所述的方法。
11.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器实现权利要求1至7中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司,未经北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110139483.3/1.html,转载请声明来源钻瓜专利网。