[发明专利]文档生成系统在审
| 申请号: | 202010401491.6 | 申请日: | 2020-05-13 |
| 公开(公告)号: | CN113673210A | 公开(公告)日: | 2021-11-19 |
| 发明(设计)人: | 沈心瑶;陈江捷;肖仰华 | 申请(专利权)人: | 复旦大学 |
| 主分类号: | G06F40/186 | 分类号: | G06F40/186;G06F16/35;G06F16/335 |
| 代理公司: | 上海德昭知识产权代理有限公司 31204 | 代理人: | 卢泓宇 |
| 地址: | 200433 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文档 生成 系统 | ||
1.一种文档生成系统,其特征在于,包括:
输入数据获取模块,用于获取训练数据以及用户输入的待分析文档材料,该训练数据包括多个行文风格统一的历史文档材料以及与该历史文档材料的文本内容相关的多种相关材料;
论据信息抽取组合模块,用于对所述待分析文档材料进行论据信息的抽取并组合为相应的论据段,存储有预先根据所述训练数据训练完成并且用于识别句子的类型的分类器以及用于抽取相应所述类型的句子的模板规则;
论点信息匹配生成模块,用于根据所述论据段生成相应的论点信息,存储有预先根据所述训练数据训练完成并且用于至少根据所述论据段生成相应候选论点信息的论点生成模型、以及由所述历史文档材料中的所有论点句子组成的论点池,所述论点信息为所述论据段的概括性的中心句;
文档生成模块,用于根据所述论据段以及所述论点信息生成新的文档材料,
其中,所述论据信息抽取组合模块具有论据抽取单元、分类识别单元、匹配抽取单元以及组合单元,
所述论点信息生成匹配模块具有候选论点生成单元以及论点信息匹配单元,
所述论据抽取单元根据所述模板规则从所述待分析文档材料中抽取各个所述类型的句子作为相应类型的所述论据信息,
所述分类识别单元通过所述分类器对所述相关材料中的各个句子进行类型识别得到各个所述句子的句子类型,
所述匹配抽取单元根据所述模板规则以及所述句子类型从所述相关材料中抽取相应所述句子作为相应类型的所述论据信息,
所述组合单元用于将相同类型的所述论据信息组合形成所述论据段,
所述候选论点生成单元用于将所述论据段输入所述论点生成模型生成候选论点信息,
所述论点信息匹配单元用于根据所述候选论点信息在所述论点池中匹配出最相似的论点句子作为所述论点信息。
2.根据权利要求1所述的文档生成系统,其特征在于,还包括:
信息推荐模块,
其中,所述论点池包含多个小论点池,该小论点池基于聚类算法对所述论点句子进行聚类得到,
所述信息推荐模块用于在所述论点信息所对应的小论点池中获取预定数量个论点句子作为推荐论点信息,并获取预定数量个论据段作为推荐论据信息,进一步将所述推荐论点信息以及所述推荐论据信息进行输出。
3.根据权利要求1所述的文档生成系统,其特征在于,还包括:
输入显示模块,存储有推荐信息显示画面,
其中,所述信息推荐模块将所述推荐论点信息以及所述推荐论据信息输出给所述输入显示模块,
所述输入显示模块显示所述推荐信息显示画面并显示所述推荐论点信息以及所述推荐论据信息让所述用户选定需要的所述推荐论点信息以及所述推荐论据信息作为文档生成信息,
一旦所述用户完成了所述文档生成信息的选定,所述文档生成模块就根据所述文档生成信息生成新的文档材料。
4.根据权利要求1所述的文档生成系统,其特征在于:
其中,所述分类器为fastText分类器,该分类器的目标函数为:
式中,N是所述历史文档材料与所述待分析文档材料中所述句子的数量,xn是第n个所述句子的特征,yn是预测标签,f是softmax函数,A和B是权重矩阵,
另外,该fastText分类器还采用了层次softmax和N-gram特征,即:
式中,ni表示深度i的节点。
5.根据权利要求1所述的文档生成系统,其特征在于:
其中,所述历史文档材料为多个干部的历史考察材料,所述待分析文档材料为待分析考察材料,
所述相关材料为各个所述干部的业绩信息以及述职材料,
所述类型为总括、品德、能力和业绩、廉政以及特点特长不足中的任意一种。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010401491.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种分布式混合动力车辆驱动装置
- 下一篇:针织的设计制作系统及其方法





