[发明专利]一种基于文本结构的文本分析方法、系统、设备和介质在审
| 申请号: | 202210145827.6 | 申请日: | 2022-02-17 |
| 公开(公告)号: | CN114611484A | 公开(公告)日: | 2022-06-10 |
| 发明(设计)人: | 许伟;杜玮;王明明;徐顿 | 申请(专利权)人: | 中国人民大学 |
| 主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/258;G06F40/284;G06K9/62 |
| 代理公司: | 北京纪凯知识产权代理有限公司 11245 | 代理人: | 冀志华 |
| 地址: | 100872 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 文本 结构 分析 方法 系统 设备 介质 | ||
本发明涉及一种基于文本结构的文本分析方法、系统、设备和介质,其包括以下步骤:对获取的待分析文本进行解析,得到其文本结构;分别对待分析文本的各文本结构进行机器阅读,得到各文本结构所对应的嵌入向量;将得到的各嵌入向量进行融合,得到融合的文章嵌入向量;基于融合得到的文章嵌入向量得到文本分析结果。本发明考虑了文章结构对于机器理解的重要意义,依照摘要‑段落{段落标题‑段落内容}的结构进行解析,使模型具有了分结构阅读的能力。因此,本发明可以广泛应用于文本分析领域。
技术领域
本发明涉及数据挖掘领域,具体涉及文本分析领域,特别是涉及一种基于文本结构的文本分析方法、系统、设备和介质。
背景技术
利用各类公开信息进行数据挖掘一直以来都是自然语言处理领域研究发展的重要方向。但是从作者撰写的公开文本到最终的预测结果,其中长篇幅文章的处理复杂性、作者撰写时的主观随意性都给预测的准确性带来了巨大挑战。项目前期的考察表明,不考虑长篇幅文章的组织结构,直接对长文本内容建模,得到的预测结果并非理想的解决方法。这类思路的有些方法尽管取得了一些看似比较理想的预测准确性,但其算法忽略了长文本的组织结构,只考虑文本内容,在结果的可解释性上难以服众。
相较于用户评论等短文本数据,长文本的篇幅大大增加,处理的复杂度、困难度也随之增加。在短文本建模处理中表现优秀的模型,在长文本处理中往往表现平平,有的“抓不住要点”,有的算法复杂度太高、耗时耗力。
目前有许多工作研究如何设计更好的模型以高效、恰当地处理长文本数据,下面分别介绍:
基于长短期记忆算法(Long Short-Term Memory)的改造模型在机器阅读领域取得了不错成绩,如长短期记忆神经网络(Cheng等,2016)。多时间尺度长短时记忆神经网络(Multi-Timescale Long Short-Term Memory Neural Network,Liu等,2015)是长文本建模领域的先驱,该模型不仅解决了LSTM模型处理长文本效率很低的缺陷,而且还能捕捉到文本中相隔较远的词语间的联系,是对LSTM在长文本机器阅读领域的优秀改造。但是该模型结构简单,只能依照文本词汇的前后顺序学习,缺乏对文本结构化理解的能力。
文本卷积神经网络(Text Convolutional Neural Networks,Kim,2014)是对CNN在文本领域的改造,使之能够处理不定长的文本数据,在数据集上取得了很好的效果,从结构上也可以看作动态卷积神经网络(Dynamic Convolutional Neural Networks,Kalchbrenner等,2014)的简化版本。但是这样的模型结构依然忽视了文章作者写作时划分的段落层次,不能很好地理解文本。
注意力机制在长文本机器阅读领域也有着巨大的贡献。分级注意网络(Hierarchical attention networks,Yang等,2016)关注长文本的结构属性,将文章分为:文章、句、词三个等级,在每一句中着重关注权重最高的词,再在文章层面着重关注权重高的句子,从而完成机器对文章的理解。这种方法从思路上非常接近人类阅读的习惯,具有极强的可解释性。这种模型结构的缺点是:没有在应用场景下展示出其优越性,也就是说,尽管它做到了基于文本结构的理解,但是并没有找到很好的应用场景来表现这种基于文本结构理解的优势。
自Google于2018年提出BERT以来,其在文本处理领域的强悍有目共睹。在长文本机器阅读领域的各式改造版本也应运而生。自适应注意网络(Sukhbaatar等,2019)改造了BERT模型(Devlin等,2018)计算全局自注意力的缺陷,改为学习一定窗口跨度内的,大大节约了算力。但是,这一模型再度忽视了文本结构,人为指定的窗口跨度依然生硬地切割文本,造成理解的偏差。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民大学,未经中国人民大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210145827.6/2.html,转载请声明来源钻瓜专利网。





