[发明专利]篇章主题分段模型训练方法、电子设备和存储介质在审
申请号: | 202111657764.4 | 申请日: | 2021-12-30 |
公开(公告)号: | CN114328928A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 张益凡 | 申请(专利权)人: | 思必驰科技股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/31;G06F40/289;G06N3/04 |
代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 黄谦;邓婷婷 |
地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 篇章 主题 分段 模型 训练 方法 电子设备 存储 介质 | ||
本发明公开篇章主题分段模型训练方法、篇章主题分段系统、电子设备和存储介质,其中,一种篇章主题分段模型训练方法,包括:在所述分段任务中采用指针网络替代所述序列标注模型中的crf层;在所述分类任务中结合所述指针网络生成的索引值进行文本分类。通过在分段任务中采用指针网络替代序列标注模型中的crf层,之后在分类任务中结合指针网络生成的索引值进行文本分类,从而可以应用于自然语言处理的大多数领域,提升篇章分段性能,进一步地,还可以帮助相关领域人员快速了解超大文本中的基本内容并生成相关报告,并能够检测文档整体结构的合理性与自动化处理和分析大数据时代衍生出的海量文本信息数据。
技术领域
本发明属于主题分段技术领域,尤其涉及篇章主题分段模型训练方法、篇章主题分段系统、电子设备和存储介质。
背景技术
主题分段算法一般分为三种,包括基于规则匹配的主题分段算法、基于LSA、HMM等无监督模型的主题分段算法和基于深度模型的主题分段算法。
其中,基于规则匹配的主题分段算法:篇章主题分段的实质是将一篇文档切分为多个含有特定主题的段落,使得阅读者对文章的行文结构一目了然。实现此任务最常见的方法是规则匹配,这类方法基本原理是:首先人为设计规则匹配表,构建不同正则表达式与特定主题的映射。其次通过人为设计的正则表达式对所有句子进行匹配,假设句子中满足规则中的基本形式,则将其映射为特定的主题。最后根据句子映射生成的主题,根据上下文主题的连续性合并段落。假设文档中连续出现多个相同主题的句子,则将其合并且标记为此主题的段落。合并完成之后,整篇文档即可切分为包含多个特定主题的段落,主要缺陷在于规则主题匹配表设计难度大需要该领域专业的人员给出,而设计完成之后只能在该领域使用。次要缺陷是根据规则切分的段落较为散乱,简单的文档被切分成大量零碎的主题,导致难以区分和明晰文档的基本架构。
基于LSA、HMM等无监督模型的主题分段算法:此类方法的基本思想是同主题的句子满足相似的词汇分布,简而言之,当文档中出现上下文句子词汇分布不一致的地方则为分割点。基于上述思想,该类方法利用LSA等模型对句子进行向量化,计算相邻句子间的相似得分获取分割位置。同时,也可以借助HMM等模型的序列性,在给定初始状态序列的基础上不断迭代,得到目标的主题分割序列,根据最终的分割序列完成篇章主题分段任务,该类方法关键问题在于可以识别段落分割位置但难以区分段落的主题类型。当然,无监督的算法模型存在的普遍问题:阈值设定困难、无法引入外部资源等也是阻碍其效果的主要矛盾。
基于深度模型的主题分段算法:篇章级主题分段本质上是对每个句子进行分类,根据类别的相似性和连续性完成任务。由此,此问题通常被抽象为NLP中最经典的序列标注任务,利用IOB标注格式给每个句子打上标签。为了区分不同句子的类型,在IOB标签后面会拼接一个句子类型信息,即为:B-LOCATION,I-LOCATION等等。完成人工标注之后,利用序列标注常用的BiLSTM+CRF、Bert+CRF等架构进行深度模型训练,待网络参数拟合数据规律后,即可预测新数据中的主题分布信息,序列标注方法常见的问题就是在多标签分类的任务上效果较差,模型在主题类型数量较大的场景下难以收敛。另一个问题是序列标注的本质是分类,模型优化目标依然是对每个句子类别的准确度,无法优化分段过程的效果。
发明内容
本发明实施例提供一种篇章主题分段模型训练方法和篇章主题分段系统和装置,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种篇章主题分段模型训练方法,包括:在所述分段任务中采用指针网络替代所述序列标注模型中的crf层;在所述分类任务中结合所述指针网络生成的索引值进行文本分类。
第二方面,本发明实施例提供一种篇章主题分段系统,包括:分词和词向量生成模型,用于对对训练数据进行分词和词向量生成;句向量生成模型,用于基于生成的词向量进行句向量生成;分段模型,用于根据权利要求1-7中任一项所述的方法对所述句向量进行分段;以及分类模型,用于根据权利要求1-7中任一项所述的方法基于分段的结果进行分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思必驰科技股份有限公司,未经思必驰科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111657764.4/2.html,转载请声明来源钻瓜专利网。