[发明专利]一种结构化文档的生成方法、装置及存储介质在审
| 申请号: | 201811640368.9 | 申请日: | 2018-12-29 | 
| 公开(公告)号: | CN109783787A | 公开(公告)日: | 2019-05-21 | 
| 发明(设计)人: | 张海勇 | 申请(专利权)人: | 远光软件股份有限公司 | 
| 主分类号: | G06F17/24 | 分类号: | G06F17/24;G06F17/22 | 
| 代理公司: | 深圳市威世博知识产权代理事务所(普通合伙) 44280 | 代理人: | 何倚雯 | 
| 地址: | 519000 广*** | 国省代码: | 广东;44 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 财务制度 结构化文档 文档 存储介质 文本 结构文档 人力成本 文档模板 文档转换 预设格式 知识信息 指令信息 预设 申请 | ||
1.一种结构化文档的生成方法,其特征在于,所述方法包括:
获取预设格式的待处理财务制度文档;
对所述待处理财务制度文档进行段落划分处理,将所述待处理财务制度文档划分为以段落为单元的段落文本;
获取所述段落文本对应的关键词;
将所述关键词作为指令信息、将所述关键词对应的所述段落文本作为知识信息输入至预设的文档模板,以生成结构化文档。
2.根据权利要求1所述的方法,其特征在于,
所述获取所述段落文本对应的关键词包括:
利用TF-IDF算法获取所述段落文本对应的关键词。
3.根据权利要求1所述的方法,其特征在于,
所述对所述待处理财务制度文档进行段落划分处理包括:
调用TexTiling算法,根据语义和/或词频对所述待处理财务制度文档进行段落划分处理。
4.根据权利要求1所述的方法,其特征在于,
所述获取所述段落文本对应的关键词之前,包括:
利用分词技术和对应财务制度类型的语料库,对所述段落文本进行分词,以得到所述段落文本的分词集合。
5.根据权利要求1所述的方法,其特征在于,所述获取预设格式的待处理财务制度文档之前,所述方法包括:
获取初始财务制度文档;
基于所述初始财务制度文档的属性信息判断所述初始财务制度文档是否是所述待处理财务制度文档;其中,所述属性信息包括文档的格式、文档的名称、文档的类型中至少一项。
6.根据权利要求5所述的方法,其特征在于,当判断所述初始制度文档为所述待处理财务制度文档后,所述获取预设格式的待处理财务制度文档包括:
接收所述初始财务制度文档;
判断所述待处理财务制度文档的文档内容类型,所述文档内容类型包括:文本类型、图片类型和表格类型;
基于所述待处理财务制度文档的文档内容类型,提取所述初始财务制度文档中的文本信息和/或数据信息,并输出为所述预设格式的所述待处理财务制度文档,其中,所述预设格式为字符串格式。
7.根据权利要求5所述的方法,其特征在于,所述获取预设格式的待处理财务制度文档之后,所述方法还包括:
基于所述文档的名称确定所述待处理财务制度文档的类型,和/或判断所述待处理财务制度文档是否有对应的历史结构化文档,其中,所述文档的类型为预设的文档所属领域中的一个。
8.根据权利要求7所述的方法,其特征在于,当判断所述待处理财务制度文档有对应的历史结构化文档时,在所述生成结构化文档步骤之后,所述方法还包括:
响应用户指令,调取所述历史结构化文档,生成所述结构化文档和所述历史结构化文档的对比结构化文档。
9.一种结构化文档的生成装置,其特征在于,所述装置包括相互连接的处理器和存储器;
其中,所述存储器用于存储程序数据;
所述处理器用于运行所述程序数据,以执行如权利要求1~8任一项所述的方法。
10.一种存储介质,其特征在于,所述存储介质存储有程序数据,所述程序数据被执行时实现如权利要求1~8任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于远光软件股份有限公司,未经远光软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811640368.9/1.html,转载请声明来源钻瓜专利网。





