[发明专利]报告模板生成方法、装置及存储介质有效
| 申请号: | 201810719305.6 | 申请日: | 2018-07-03 |
| 公开(公告)号: | CN110738033B | 公开(公告)日: | 2023-09-19 |
| 发明(设计)人: | 马宇峰;王晓元;叶峻;沈璠;余韬 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
| 主分类号: | G06F40/186 | 分类号: | G06F40/186;G06F40/211 |
| 代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 报告 模板 生成 方法 装置 存储 介质 | ||
1.一种报告模板生成方法,其特征在于,包括:
采集与领域事件相关的报告文档集合;
通过语义词及上下文结构的匹配,将所述报告文档集合进行语义化处理;
对语义化处理后的所述报告文档集合进行章节对齐处理,得到章节标签;
对语义化处理后的所述报告文档集合进行语句对齐处理,得到语句标签;
对语义化处理后的所述报告文档集合进行词对齐处理,得到词标签;
根据所述章节标签、所述语句标签和所述词标签,生成与领域事件相关的报告模板;
其中,所述语义化处理通过如下步骤实现:
标注少量的文档,其中,标注的内容包括语义词和该语义词对应的上下文结构;
根据置信度阈值,将标注的上下文结构组织成固定上下文结构;
利用所述固定上下文结构在未标注的文档中匹配,以提取匹配的上下文结构和与匹配的上下文结构对应的语义词;
从全量文档中获取与标注的语义词和基于匹配提取的语义词对应的上下文结构作为扩展上下文结构;
利用扩展上下文结构在未标注的文档中匹配,以提取匹配的上下文结构和与匹配的上下文结构对应的语义词;
循环上述步骤直至上下文结构不再变化,得到语义词集合和对应的上下文结构集合。
2.根据权利要求1所述的方法,其特征在于,对所述报告文档集合进行章节对齐处理,得到章节标签,包括:
将所述报告文档集合划分为章节,将所述章节聚类并提取章节标签。
3.根据权利要求2所述的方法,其特征在于,将所述章节聚类并提取章节标签,包括:
将每个章节的标题进行切词处理并提取关键词,将所述关键词作为章节聚类特征;和/或,将每个章节的内容利用文档主题生成模型抽取主题向量,将所述主题向量作为章节聚类特征;
将所述章节聚类特征进行聚类分析;
将聚类分析产生的同类章节的标题提取出来,从所述标题中抽取关键短语,将出现频次最高的关键短语作为该类章节的标签。
4.根据权利要求1所述的方法,其特征在于,对所述报告文档集合进行章节对齐处理,还包括:
记录所述报告文档集合的文档中各章节的前后顺序;
将记录的所述各章节的前后顺序进行概率统计分析,根据概率统计分析的结果确定在生成的报告模板中各章节的前后顺序。
5.根据权利要求1所述的方法,其特征在于,对所述报告文档集合进行语句对齐处理,得到语句标签,包括:
将章节标签相同的章节中的语句聚类,并提取语句标签。
6.根据权利要求5所述的方法,其特征在于,将章节标签相同的章节中的语句聚类,包括:
将章节中每个语句中的关键词、每个语句的句法结构树、每个语句中每个词的词性标签和每个语句中每个词的词向量的叠加值中的至少一项,作为语句聚类特征;
将所述语句聚类特征进行聚类分析。
7.根据权利要求1所述的方法,其特征在于,对所述报告文档集合进行语句对齐处理,还包括:
记录所述章节标签相同的章节中各语句的前后顺序;
将记录的所述各语句的前后顺序进行概率统计分析,根据概率统计分析的结果确定在生成的报告模板中各语句的前后顺序。
8.根据权利要求1所述的方法,其特征在于,对所述报告文档集合进行词对齐处理,得到词标签,包括:
将语句标签相同的语句中的词聚类,并提取词标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810719305.6/1.html,转载请声明来源钻瓜专利网。





