[发明专利]一种获取文本摘要的方法及语言模型生成方法在审

申请号：	202010318584.2	申请日：	2020-04-21
公开（公告）号：	CN111581341A	公开（公告）日：	2020-08-25
发明（设计）人：	陈栋;付骁弈;张杰	申请（专利权）人：	上海明略人工智能（集团）有限公司
主分类号：	G06F16/33	分类号：	G06F16/33;G06F16/34;G06F40/211
代理公司：	北京安信方达知识产权代理有限公司 11262	代理人：	王康;龙洪
地址：	200232 上海市徐***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种获取文本摘要方法语言模型生成
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种语言模型生成方法，包括：

对分句排列顺序调整的训练文本，按照预设生成策略生成各分句的语句特征向量；

通过预设的特征抽取器对生成的各分句的语句特征向量进行处理，获得各分句的输出向量；

根据获得的所有分句的输出向量，确定排列顺序调整后的分句的语句排列顺序信息；

根据标准排序信息和确定的语句排序信息，对特征提取器进行参数调整，以获得用于向量表达的语言模型；

其中，所述语句特征向量包括：字嵌入的特征信息、区分各相邻分句的特征信息和标识分句内词语排序的特征信息；所述标准排序信息包括：对未调整分句排列顺序的训练文本的各分句按序分别添加编号；根据添加的所有分句的编号，生成未调整分句排列顺序的训练文本的编号排序信息；语句排序信息包括：基于添加的各分句的编号生成的：分句排列调整后训练文本的所有分句的编号排序信息。

2.根据权利要求1所述的语言模型生成方法，其特征在于，所述按预设生成策略生成各分句的语句特征向量，包括：

对分句排列顺序调整的所述训练文本的各分句分别添加预设的起止标识；

对添加所述起止标识的各分句分别进行嵌入处理；

根据各分句的嵌入处理结果获得各分句的所述语句特征向量；

其中，所述起止标识包括：起始标识和终止标识。

3.根据权利要求2所述的语言模型生成方法，其特征在于，所述对添加所述起止标识的各分句分别进行嵌入处理，包括：

对添加起止标识的分句进行字嵌入；

对添加起止标识的分句，按照预设的分句区分标识进行段嵌入；

对添加起止标识的分句，按照预设的句内词语排序标识对分句内的词语进行语句内位置嵌入；

其中，所述分句区分标识包括：用于区分相邻分句的标识，同一分句内的词语的分句区分标识相同；所述句内词语排序标识包括：用于区分分句内各词语排列顺序的标识。

4.根据权利要求3所述的语言模型生成方法，其特征在于，所述根据各分句的嵌入处理结果获得各分句的所述语句特征向量，包括：

对每一个分句的所述字嵌入、所述段嵌入和所述语句内位置嵌入的结果进行累加，获得各分句的所述语句特征向量。