[发明专利]一种文稿生成方法与装置在审
申请号: | 202210873231.8 | 申请日: | 2022-07-22 |
公开(公告)号: | CN115114892A | 公开(公告)日: | 2022-09-27 |
发明(设计)人: | 刘启芳;赵志强;薛建军;刘俊;王静;曾勇;郑晶晶 | 申请(专利权)人: | 武汉烽火技术服务有限公司 |
主分类号: | G06F40/166 | 分类号: | G06F40/166;G06F40/205;G06F40/117;G06F16/33 |
代理公司: | 深圳市六加知识产权代理有限公司 44372 | 代理人: | 向彬 |
地址: | 430205 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文稿 生成 方法 装置 | ||
1.一种文稿生成方法,其特征在于,根据课件文稿生成讲义文稿,包括:
将课件文稿输入并分为结构页和内容页,对所述结构页和所述内容页进行解析,而后根据由往期课件建立的语料库,对应训练讲义提纲生成模型和讲义内容检索模型,通过所述讲义提纲生成模型根据结构页解析得到的结构文本生成讲义提纲,通过所述讲义内容检索模型根据内容页解析得到的内容文本生成讲义内容;
所述讲义提纲加上所述讲义内容即为讲义文稿。
2.根据权利要求1所述的文稿生成方法,其特征在于,所述将课件文稿输入并分为结构页和内容页,具体包括:
在所述课件文稿输入后,获取课件文稿的页面编号和页面内容,根据所述页面编号和所述页面内容将所述课件文稿分为首页、目录页、正文页和结束页中的至少两种;
将所述首页、目录页和结束页识别为课件文稿的结构页,将所述正文页识别为课件文稿的内容页。
3.根据权利要求2所述的文稿生成方法,其特征在于,所述将所述首页、目录页和结束页识别为课件文稿的结构页,具体包括:
所述结构页按照其在所述课件文稿中的位序排列形成结构页集合S,所述结构页集合S的文本内容即为结构文本Stext;
所述结构文本Stext为:
所述Spid为结构单元,具体为:
Spid=(titlepid,contentpid,notepid);
其中,所述pid为页面编号,所述titlepid为标题文本,所述contentpid为正文文本,所述notepid为备注文本,所述Ps为结构页的页面编号pid集合。
4.根据权利要求3所述的文稿生成方法,其特征在于,所述将所述正文页识别为课件文稿的内容页,具体包括:
所述内容页按照其在所述课件文稿中的位序排列形成内容页集合C,所述内容页集合C的文本内容即为内容文本Ctext;
所述内容文本Ctext为:
所述Cpid为内容单元,具体为:
Cpid=(titlepid,contentpid,notepid);
其中,所述Pc为内容页的页面编号pid集合。
5.根据权利要求4所述的文稿生成方法,其特征在于,所述往期课件建立的语料库,具体包括:建立讲义提纲语料库和讲义内容语料库;
从往期课件中提取原始语料,对所述原始语料的每个结构单元Spid建立数据对keywords,texts进行标识,形成讲义提纲语料数据集outline_data,从而得到所述讲义提纲语料库outline_data={keywords,texts};
从往期课件中提取原始语料,对所述原始语料的每个内容单元Cpid建立数据对keywordc,textc进行标识,形成讲义内容语料数据集context_data,从而得到所述讲义内容语料库context_data={keywordc,textc};
其中,所述keywords为往期课件的提纲关键词列表,所述texts为往期课件的提纲文本,所述keywordc为往期课件的内容关键词列表,所述textc为往期课件的内容文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉烽火技术服务有限公司,未经武汉烽火技术服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210873231.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:表面清洁设备
- 下一篇:一种市政给排水施工用防塌落装置