[发明专利]文本处理方法、装置、设备和存储介质在审

专利信息
申请号: 201910349092.7 申请日: 2019-04-28
公开(公告)号: CN111858907A 公开(公告)日: 2020-10-30
发明(设计)人: 郭垿宏;李安新;郭心语;陈岚 申请(专利权)人: 株式会社NTT都科摩
主分类号: G06F16/34 分类号: G06F16/34;G06F16/35
代理公司: 北京市柳沈律师事务所 11105 代理人: 张晓明
地址: 日本*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 处理 方法 装置 设备 存储 介质
【说明书】:

提供了一种文本处理方法、装置、设备和存储介质。所述方法包括获取输入文本;利用聚类将所述输入文本分割为多个部分;对所述多个部分进行分析,生成所述多个部分中的每个部分对应的分析结果;对所述每个部分对应的分析结果进行合并,以生成输出文本。

技术领域

本申请涉及文本处理领域,并且具体涉及一种文本处理方法、文本处理装置、文本处理设备以及计算机可读存储介质。

背景技术

深度神经网络是一种大规模、多参数优化的工具。依靠大量的训练数据,深度神经网络能够学习出数据中难以总结的隐藏特征,从而完成多项复杂的任务,如人脸检测、图像语义分割、文本摘要提取、物体检测、动作追踪、自然语言翻译等。

文本摘要提取指的是将一段有明确含义的文本内容进行高度的概括和抽象,生成文本的摘要。传统的文本摘要提取方法生成的摘要长短有所差别。因此,当需要指定字数的摘要时,现有的实现方式是通过训练神经网络模型,使神经网络模型在处理输入文本时逐字生成,到达指定字数后停止成长,进而生成指定字数的摘要。但是,这种处理方法可能存在最终生成的摘要中存在半句的问题,或者当需要多个指定字数时,对于每种长度的摘要都需要训练一个神经网络模型,从而使得实现复杂度高的问题。

发明内容

鉴于上述问题,本公开提供了一种文本处理方法、文本处理装置、文本处理设备以及计算机可读存储介质。

根据本公开的一个方面,提供了一种文本处理方法,所述方法包括:获取输入文本;利用聚类将所述输入文本分割为多个部分;对所述多个部分进行分析,生成所述多个部分中的每个部分对应的分析结果;对所述每个部分对应的分析结果进行合并,以生成输出文本。

根据本公开的一个方面,其中,利用聚类将所述输入文本分割为多个部分包括:初始化所述多个部分相应的多个中心句;通过计算所述输入文本中的组成句子与所述多个中心句之间的相似度,基于相似度将所述输入文本中的组成句子分别划分到所述多个中心句相应的部分中,并更新所述多个部分所包含的组成句子;在所述多个部分内,通过计算各个组成句子之间的相似度,将总相似度最高的组成句子确定为新的中心句;重复上述过程直到所述新的中心句不再变化。

根据本公开的一个方面,其中,利用聚类将输入文本分割为的多个部分的数目由所述输出文本的预定目标字数确定。

根据本公开的一个方面,其中,所述对所述每个部分对应的分析结果进行合并包括:计算所述分析结果的各个组成句子与所述输入文本的所有组成句子之间的相似度;分别找出与所述分析结果的各个组成句子对应的、相似度最高的所述输入文本的各个组成句子在所述输入文本中的位置;基于所述位置在所述输入文本中的出现顺序,对所述分析结果的各个组成句子进行排序,并按照所述排序合并所述分析结果的各个组成句子。

根据本公开的一个方面,其中,针对所述多个部分生成相同字数的分析结果。

根据本公开的一个方面,其中,基于所述多个部分的组成句子的权重,针对所述多个部分生成不同字数的分析结果。

根据本公开的一个方面,提供了一种文本处理装置,所述装置包括:获取单元,用于获取输入文本;分割单元,用于利用聚类将所述输入文本分割为多个部分;分析单元,用于对所述多个部分进行分析,生成所述多个部分中的每个部分对应的分析结果;合并单元,用于对所述每个部分对应的分析结果进行合并,以生成输出文本。

根据本公开的一个方面,其中,所述分割单元初始化所述多个部分相应的多个中心句;通过计算所述输入文本中的组成句子与所述多个中心句之间的相似度,基于相似度将所述输入文本中的组成句子分别划分到所述多个中心句相应的部分中,并更新所述多个部分所包含的组成句子;在所述多个部分内,通过计算各个组成句子之间的相似度,将总相似度最高的组成句子确定为新的中心句,重复上述过程直到所述新的中心句不再变化。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社NTT都科摩,未经株式会社NTT都科摩许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910349092.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top