[发明专利]文本处理方法、装置、设备和存储介质在审
| 申请号: | 201910349092.7 | 申请日: | 2019-04-28 |
| 公开(公告)号: | CN111858907A | 公开(公告)日: | 2020-10-30 |
| 发明(设计)人: | 郭垿宏;李安新;郭心语;陈岚 | 申请(专利权)人: | 株式会社NTT都科摩 |
| 主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/35 |
| 代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 张晓明 |
| 地址: | 日本*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 处理 方法 装置 设备 存储 介质 | ||
1.一种文本处理方法,包括:
获取输入文本;
利用聚类将所述输入文本分割为多个部分;
对所述多个部分进行分析,生成所述多个部分中的每个部分对应的分析结果;
对所述每个部分对应的分析结果进行合并,以生成输出文本。
2.根据权利要求1所述的文本处理方法,其中,所述利用聚类将所述输入文本分割为多个部分包括:
初始化所述多个部分相应的多个中心句;
通过计算所述输入文本中的组成句子与所述多个中心句之间的相似度,基于相似度将所述输入文本中的组成句子分别划分到所述多个中心句相应的部分中,并更新所述多个部分所包含的组成句子;
在所述多个部分内,通过计算各个组成句子之间的相似度,将总相似度最高的组成句子确定为新的中心句;
重复上述过程直到所述新的中心句不再变化。
3.根据权利要求1或2所述的文本处理方法,其中,利用聚类将输入文本分割为的多个部分的数目由所述输出文本的预定目标字数确定。
4.根据权利要求3所述的文本处理方法,其中,所述对所述每个部分对应的分析结果进行合并包括:
计算所述分析结果的各个组成句子与所述输入文本的所有组成句子之间的相似度;
分别找出与所述分析结果的各个组成句子对应的、相似度最高的所述输入文本的各个组成句子在所述输入文本中的位置;
基于所述位置在所述输入文本中的出现顺序,对所述分析结果的各个组成句子进行排序,并按照所述排序合并所述分析结果的各个组成句子。
5.根据权利要求1-4任一项所述的文本处理方法,其中,针对所述多个部分生成相同字数的分析结果。
6.根据权利要求1-4任一项所述的文本处理方法,其中,基于所述多个部分的组成句子的权重,针对所述多个部分生成不同字数的分析结果。
7.一种文本处理装置,包括:
获取单元,用于获取输入文本;
分割单元,用于利用聚类将所述输入文本分割为多个部分;
分析单元,用于对所述多个部分进行分析,生成所述多个部分中的每个部分对应的分析结果;
合并单元,用于对所述每个部分对应的分析结果进行合并,以生成输出文本。
8.根据权利要求7所述的文本处理装置,其中,
所述分割单元初始化所述多个部分相应的多个中心句;
通过计算所述输入文本中的组成句子与所述多个中心句之间的相似度,基于相似度将所述输入文本中的组成句子分别划分到所述多个中心句相应的部分中,并更新所述多个部分所包含的组成句子;
在所述多个部分内,通过计算各个组成句子之间的相似度,将总相似度最高的组成句子确定为新的中心句,
重复上述过程直到所述新的中心句不再变化。
9.根据权利要求7或8所述的文本处理装置,所述分割单元通过所述输出文本的预定目标字数确定利用聚类将输入文本分割为的多个部分的数目。
10.根据权利要求9所述的文本处理装置,其中,
所述合并单元计算所述分析结果的各个组成句子与所述输入文本的所有组成句子之间的相似度;
分别找出与所述分析结果的各个组成句子对应的、相似度最高的所述输入文本的各个组成句子在所述输入文本中的位置;
基于所述位置在所述输入文本中的出现顺序,对所述分析结果的各个组成句子进行排序,并按照所述排序合并所述分析结果的各个组成句子。
11.根据权利要求7-10任一项所述的文本处理装置,其中,所述合并单元针对所述多个部分生成相同字数的分析结果。
12.根据权利要求7-10任一项所述的文本处理装置,其中,所述合并单元基于所述多个部分的组成句子的权重,针对所述多个部分生成不同字数的分析结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社NTT都科摩,未经株式会社NTT都科摩许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910349092.7/1.html,转载请声明来源钻瓜专利网。





