[发明专利]一种基于深度学习的自然语言生成方法在审
| 申请号: | 201810005504.0 | 申请日: | 2018-01-03 |
| 公开(公告)号: | CN108563624A | 公开(公告)日: | 2018-09-21 |
| 发明(设计)人: | 王伟;郑海涛;陈金元;韩金新;肖喜 | 申请(专利权)人: | 清华大学深圳研究生院 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/22;G06N3/04 |
| 代理公司: | 深圳新创友知识产权代理有限公司 44223 | 代理人: | 余敏 |
| 地址: | 518055 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 评论 隐藏状态 向量 自然语言生成 词向量 词表 生成装置 向量预测 新闻评论 新闻生成 训练阶段 向量化 概率 取词 选中 学习 | ||
本发明公开了一种基于深度学习的自然语言生成方法,包括使用已有的新闻和评论对评论生成装置进行训练,训练阶段包括以下步骤:S1,将已有的新闻和评论中的词进行向量化处理,获取新闻中各词对应的词向量和评论中各词对应的词向量;S2,获取新闻中各词的隐藏状态向量;S3,获取评论中各词的隐藏状态向量;S4,对于评论中的各词均进行处理,得到各词的新的隐藏状态向量;S5,根据步骤S4得到的评论中各词的新的隐藏状态向量预测各词对应的下一个词:根据当前词的隐藏状态向量得到词表内选中各个词的概率,取概率最大的词作为生成的评论中的当前词的下一个词。本发明可针对给定的新闻生成对应的新闻评论,且评论中取词的准确性较高。
【技术领域】
本发明涉及计算机应用领域,特别是涉及一种基于深度学习的自然语言生成方法。
【背景技术】
自然语言生成属于人工智能和计算语言的交叉学科,其目的旨在使机器生成可理解的人类语言文本。自然语言生成技术的进步有助于构建强人工智能系统,并增进对人类语言的理解。传统的自然语言生成技术已经成功应用于多个领域,如自动新闻写作,使得机器可以自动生成体育赛事报道,并具有快速,准确的特点,腾讯,百度,今日头条等公司都开发了相应的写稿机器人。还有自动天气预报生成,对话系统中的自动回复生成等等,通过自然语言生成技术的应用,大大减小了人工的参与程度,并且保证了信息的实时发布。
但是传统的语言生成技术也存在一定的问题,其多是利用一些领域专家手工定制的模板进行生成,这就导致生成系统无法在不同领域进行泛化,比如生成体育赛事报道的系统,就无法生成财经报道。其次,传统的语言技术生成的文本缺乏人类语言的变化,千篇一律,很容易使读者丧失兴趣。并且,模板定制仍然需要耗费较多的人力,而且一般需要领域专家完成。最重要的是,这种基于模板的传统语言生成技术比较适用于格式较为固定的文本的生成,如赛事报道,其通常都有一些固定的格式,可通过人工专家总结出来相应的生成模板。但是对于一些比较自由的文本,这种技术就难以适用。
近来基于循环神经网络的自然语言生成技术得到了越来越多的学者的关注,并显示了其在自然生成方面的巨大潜力,与基于模板的传统语言生成技术相比,其有很多优点。基于循环神经网络的生成技术最小化了人工参与程度,提供了一个端到端的解决方案,可以自动从数据中学习输入到输出的映射。正是由于其诸多优点,这种新的生成技术很快应用于许多领域,如自动写诗,百度,微软都开发了自动写诗机器人,生成的诗歌足以以假乱真。还有图片视频描述生成,即给定一个图片或一段视频来自动生成针对图片或视频的描述,所有这些背后的核心技术都是基于循环神经网络的生成技术。
以上背景技术内容的公开仅用于辅助理解本发明的发明构思及技术方案,其并不必然属于本专利申请的现有技术,在没有明确的证据表明上述内容在本专利申请的申请日已经公开的情况下,上述背景技术不应当用于评价本申请的新颖性和创造性。
【发明内容】
本发明所要解决的技术问题是:弥补上述现有技术的不足,提出一种基于深度学习的自然语言生成方法,可针对给定的新闻生成对应的新闻评论,且评论中取词的准确性较高。
本发明的技术问题通过以下的技术方案予以解决:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学深圳研究生院,未经清华大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810005504.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种有痕阅卷的方法和系统
- 下一篇:医疗文本命名实体识别方法和装置





