[发明专利]文档生成系统在审

专利信息
申请号: 202010401491.6 申请日: 2020-05-13
公开(公告)号: CN113673210A 公开(公告)日: 2021-11-19
发明(设计)人: 沈心瑶;陈江捷;肖仰华 申请(专利权)人: 复旦大学
主分类号: G06F40/186 分类号: G06F40/186;G06F16/35;G06F16/335
代理公司: 上海德昭知识产权代理有限公司 31204 代理人: 卢泓宇
地址: 200433 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文档 生成 系统
【说明书】:

发明提供一种文档生成系统,用于根据高相关性的历史文档材料自动生成新的文档,其特征在于,包括:输入数据获取模块,用于获取训练数据以及用户输入的待分析文档材料,该训练数据包括多个高重复性的历史文档材料以及与该历史文档材料的文本内容相关的多种相关材料;论据信息抽取组合模块,用于对待分析文档材料进行论据信息的抽取并组合为相应的论据段,存储有预先根据训练数据训练完成并且用于识别句子的类型的分类器以及用于抽取相应类型的句子的模板规则;论点信息匹配生成模块,用于根据论据段生成相应的论点信息,存储有预先根据训练数据训练完成的论点生成模型;文档生成模块,用于根据论据段以及论点信息生成新的文档材料。

技术领域

本发明属于自然语言生成领域,具体涉及一种文档生成系统。

背景技术

随着自然语言处理技术的飞速增长,计算机在处理文本方面的能力越来越强。计算机和人一样,可以对话,阅读文章,评论文章等等。在日常生活中,我们需要撰写大量的文档,很多文档的撰写很繁琐,并且具有较高的重复性和机械性,如果能从历史文档中获取信息,自动生成文档将大大节省人力。由此可见,作为自然语言生成的一个应用,自动生成文档有很大的需求。

现有的自然语言生成技术主要有抽取式和生成式两种。抽取式文本生成方法统计文本中各个句子的权重,根据权值进行排序选取重要的句子。主要有基于统计,基于图模型,基于潜在语义等方法。在句子挑选时,句子的重要性计算可以通过规则的方法,比如依赖业务知识总结的一些线索词,也可以利用机器学习方法考虑句子特征,比如CRF,SVM等,然后进行句子组合,则可以充分考虑句子的相似性,进行去重(MMR算法),以及连贯性排列(自底向下法)。近几年也有人提出了基于整数线性规划和模函数最大化的的方法来考虑句子的冗余性进行句子选择。生成式的方法主要采用seq2seq的方法。从最开始的RNN,LSTM深度学习模型,到后来的CopyNet和Pointer Network,最近又兴起利用GNN,GCN,理解式的文本生成效果确实在不断提高,但是还在探索阶段。

然而,上述抽取式的方法重复性很高,抽取的质量和流畅度差强人意,并且比如TextRank算法主要考虑单词词频,没有考虑过多的语义信息。而生成式的方法又太泛,会损失掉很多有用信息,目前还不能很好地处理很长的序列。

另外,现在大多数基于上述方法的文档生成系统,都是针对一个特定任务的,不具有普适性,更多的可以理解成代替统计和格式转换的方法,比如Doxygen是一个程序的文件产生工具,只是文档作为另一个表现形式,或者是模板性非常高的文档生成,比如自动生成目录,而无法真正地自动生成一个文档。

发明内容

为解决上述问题,提供一种能够根据高相关性的历史文档材料自动生成新的文档生成系统,本发明采用了如下技术方案:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010401491.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top