[发明专利]数据处理方法、摘要展示方法、装置、设备及存储介质在审
| 申请号: | 202011102188.2 | 申请日: | 2020-10-15 |
| 公开(公告)号: | CN114372139A | 公开(公告)日: | 2022-04-19 |
| 发明(设计)人: | 邹易澄;康杨杨;孙常龙;赵露君;林君 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
| 主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/216 |
| 代理公司: | 北京东方亿思知识产权代理有限责任公司 11258 | 代理人: | 彭琼 |
| 地址: | 开曼群岛*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数据处理 方法 摘要 展示 装置 设备 存储 介质 | ||
本申请实施例提供一种数据处理方法、摘要展示方法、装置、设备及存储介质。该方法包括:获取待处理文本数据,待处理文本数据包括多个句子;将多个句子输入目标摘要生成模型,确定多个句子中的至少一个主题句;根据至少一个主题句获得待处理文本数据的摘要;其中,目标摘要生成模型的输入为训练文本数据中多个样本句子,以及多个样本句子分别对应的上下文句子段,目标摘要生成模型的输出为训练文本数据对应的至少一个主题句。根据本申请实施例,能够基于具有整合上下文信息能力的目标摘要生成模型,生成包括上下文信息的摘要,提高摘要的生成质量。
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种数据处理方法、摘要展示方法、装置、设备及存储介质。
背景技术
随着信息技术的发展,人们能够接触到海量的文本数据,例如对话、新闻、博客、报告、论文、微博等等。为了从大量的文本数据中获取重要的信息,可以通过生成摘要的方式从文本数据中提取重要的内容。
目前,传统的摘要生成模型生成的摘要质量较低,在一些场景下并不适用,例如在文本数据包括大量的省略句和疑问句的情况下,由于传统的摘要生成模型的识别能力低,生成的摘要往往没有实际意义。
发明内容
本申请实施例提供了一种数据处理方法、摘要展示方法、装置、设备及存储介质,能够生成包括上下文信息的摘要,提高摘要的生成质量。
第一方面,本申请实施例提供了一种数据处理方法,该方法包括:
获取待处理文本数据,待处理文本数据包括多个句子;
将多个句子输入目标摘要生成模型,确定多个句子中的至少一个主题句;
根据至少一个主题句获得待处理文本数据的摘要;
其中,目标摘要生成模型的输入为训练文本数据中多个样本句子,以及多个样本句子分别对应的上下文句子段,目标摘要生成模型的输出为训练文本数据对应的至少一个主题句。
第二方面,本申请实施例提供了一种摘要展示方法,该方法包括:
获取待处理对话数据,待处理对话数据包括多个问答句子;
将多个问答句子输入目标摘要生成模型,确定多个问答句子中,与至少一个目标对象相关的至少一个主题句;
根据至少一个主题句展示待处理对话数据的摘要;
其中,目标摘要生成模型的输入为训练对话数据中多个样本问答句子,以及多个样本问答句子分别对应的上下文句子段,目标摘要生成模型的输出为训练对话数据对应的至少一个主题句。
第三方面,本申请实施例提供了一种数据处理装置,该装置包括:
获取模块,用于获取待处理文本数据,待处理文本数据包括多个句子;
确定模块,用于将多个句子输入目标摘要生成模型,确定多个句子中的至少一个主题句;
获取模块,还用于根据至少一个主题句获得待处理文本数据的摘要;
其中,目标摘要生成模型的输入为训练文本数据中多个样本句子,以及多个样本句子分别对应的上下文句子段,目标摘要生成模型的输出为训练文本数据对应的至少一个主题句。
第四方面,本申请实施例提供了一种摘要展示装置,该装置包括:
获取模块,用于获取待处理对话数据,待处理对话数据包括多个问答句子;
确定模块,用于将多个问答句子输入目标摘要生成模型,确定多个问答句子中,与至少一个目标对象相关的至少一个主题句;
展示模块,用于根据至少一个主题句展示待处理对话数据的摘要;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011102188.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高浓度有机废气处理系统
- 下一篇:带补水仪功能的数据线





