[发明专利]报告模板生成方法、装置及存储介质有效
| 申请号: | 201810719305.6 | 申请日: | 2018-07-03 |
| 公开(公告)号: | CN110738033B | 公开(公告)日: | 2023-09-19 |
| 发明(设计)人: | 马宇峰;王晓元;叶峻;沈璠;余韬 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
| 主分类号: | G06F40/186 | 分类号: | G06F40/186;G06F40/211 |
| 代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 报告 模板 生成 方法 装置 存储 介质 | ||
本发明实施例提出一种报告模板生成方法、装置及计算机可读存储介质。其中报告模板生成方法包括:采集与领域事件相关的报告文档集合;对所述报告文档集合进行章节对齐处理,得到章节标签;对所述报告文档集合进行语句对齐处理,得到语句标签;对所述报告文档集合进行词对齐处理,得到词标签;根据所述章节标签、所述语句标签和所述词标签,生成与领域事件相关的报告模板。本发明实施例依靠公开的报告数据挖掘报告树状模板,使生成的模板的表达方式更多、更加生动灵活。
技术领域
本发明涉及信息技术领域,尤其涉及一种报告模板生成方法、装置及计算机可读存储介质。
背景技术
随着时代的发展,结构化数据到文本的生成技术得到了越来越多的重视。在该应用场景下,天气预报文本、体育新闻、财经报告、医疗总结等等规范化的文本均可以通过将结构化数据嵌套进模板的方法生成出来。该方法极大的降低了基础编辑的手工成本,也大大提升了报告产出的速度,实现了行业的变革。
然而传统的基于结构化数据嵌套进模板的方法,由于模板固定,生成的报告也不够生动。并且由于固定模板的表现形式有限,需要大量的判别方法来定义模板,对模板编辑人员的要求也较高。而且目前的报告模板生成方案还停留在人工专家撰写、编辑的阶段,需要依赖强大的专家知识。人工撰写不仅成本较高,而且枚举的模板数量有限。
发明内容
本发明实施例提供一种报告模板生成方法、装置及计算机可读存储介质,以至少解决现有技术中的一个或多个技术问题。
第一方面,本发明实施例提供了一种报告模板生成方法,包括:采集与领域事件相关的报告文档集合;对所述报告文档集合进行章节对齐处理,得到章节标签;对所述报告文档集合进行语句对齐处理,得到语句标签;对所述报告文档集合进行词对齐处理,得到词标签;根据所述章节标签、所述语句标签和所述词标签,生成与领域事件相关的报告模板。
结合第一方面,本发明实施例在第一方面的第一种实现方式中,在采集与领域事件相关的报告文档集合之后,还包括:通过语义词及上下文结构的匹配,将所述报告文档集合进行语义化处理;对语义化处理后的所述报告文档集合进行所述章节对齐处理、所述语句对齐处理和所述词对齐处理。
结合第一方面或第一方面的第一种实现方式,本发明实施例在第一方面的第二种实现方式中,对所述报告文档集合进行章节对齐处理,得到章节标签,包括:将所述报告文档集合划分为章节,将所述章节聚类并提取章节标签。
结合第一方面的第二种实现方式,本发明实施例在第一方面的第三种实现方式中,将所述章节聚类并提取章节标签,包括:将每个章节的标题进行切词处理并提取关键词,将所述关键词作为章节聚类特征;和/或,将每个章节的内容利用文档主题生成模型抽取主题向量,将所述主题向量作为章节聚类特征;将所述章节聚类特征进行聚类分析;将聚类分析产生的同类章节的标题提取出来,从所述标题中抽取关键短语,将出现频次最高的关键短语作为该类章节的标签。
结合第一方面或第一方面的第一种实现方式,本发明实施例在第一方面的第四种实现方式中,对所述报告文档集合进行章节对齐处理,还包括:记录所述报告文档集合的文档中各章节的前后顺序;将记录的所述各章节的前后顺序进行概率统计分析,根据概率统计分析的结果所述确定在生成的报告模板中各章节的前后顺序。
结合第一方面或第一方面的第一种实现方式,本发明实施例在第一方面的第五种实现方式中,对所述报告文档集合进行语句对齐处理,得到语句标签,包括:将章节标签相同的章节中的语句聚类,并提取语句标签。
结合第一方面的第五种实现方式,本发明实施例在第一方面的第六种实现方式中,将章节标签相同的章节中的语句聚类,包括:将章节中每个语句中的关键词、每个语句的句法结构树、每个语句中每个词的词性标签和每个语句中每个词的词向量的叠加值中的至少一项,作为语句聚类特征;将所述语句聚类特征进行聚类分析。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810719305.6/2.html,转载请声明来源钻瓜专利网。





