[发明专利]一种金融舆情研报的机器阅读理解方法及系统在审
| 申请号: | 202110748656.1 | 申请日: | 2021-07-02 |
| 公开(公告)号: | CN113505207A | 公开(公告)日: | 2021-10-15 |
| 发明(设计)人: | 成昊;龚慧敏;敖翔 | 申请(专利权)人: | 中科苏州智能计算技术研究院 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/35;G06F16/951;G06F16/9535;G06F40/194;G06N20/00 |
| 代理公司: | 南京苏科专利代理有限责任公司 32102 | 代理人: | 陈忠辉 |
| 地址: | 215123 江苏省苏州市苏州工*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 金融 舆情 机器 阅读 理解 方法 系统 | ||
本发明揭示了一种金融舆情研报的机器阅读理解方法及系统,该方法主要包括数据制定与收集、训练数据标注、深度学习模型构建和答案组织,具体为应金融垂直领域的需求,预定义用户的问题集,并搜集与问题集相关联的舆情数据;通过关键词匹配从舆情数据中找出与预定义问题集中问题相贴切的数据,利用有监督模型筛选出数据中包含问题答案的句子,并进行数据标注;利用金融领域预训练的BERT模型获取文字的向量表示,再通过自然语言处理法中注意力机制对数据和问题进行交互,得到计算机能够理解的融合向量表示;对深度学习模型反馈的两条以上答案进行逻辑组合。本发明技术解决方案,利用标注数据的有监督模型,提高了机器阅读理解的准确率及处理效率。
技术领域
本发明涉及一种计算机理解文章语义并回答相关问题的技术,尤其涉及一种基于有监督、深度学习算法的金融领域机器阅读理解方法及系统。
背景技术
机器阅读理解(Machine Reading Comprehension,MRC)是一种利用算法使计算机理解文章语义并回答相关问题的技术。由于文章和问题均采用人类语言的形式,因此机器阅读理解属于自然语言处理(NLP)的范畴,也是其中最新最热门的课题之一。近些年来,随着机器学习,特别是深度学习的发展,机器阅读理解研究有了长足的进步,并在实际应用中崭露头角。
在2016年之前,大家使用更多的是统计学习的方法,包含了大量的特征工程,非常耗时耗力。在2016年之后,SQuAD数据集发布之后,出现了一些基于注意力机制的匹配模型,比如BiDAF、LSTM等等。这之后出现了各种网络结构比较复杂的模型,相关工作试图通过复杂的网络结构去捕捉问题和篇章之间的匹配关系。在2018年之后,随着各种预训练语言模型的出现,阅读理解模型效果得到了近一步大幅的提升,因为表示层的能力变的很强大,任务相关的网络结构开始变的简单起来。
在机器阅读理解技术应用中,共有四种常见任务,分述如下:
一、完形填空:给定文章C,将其中的一个词或者实体a(a∈C)隐去作为待填空的问题,完形填空任务要求通过最大化条件概率P(a|C-{a})来利用正确的词或实体a进行填空。
二、多项选择:给定文章C、问题Q和一系列候选答案集合,多项选择任务通过最大化条件概率来从候选答案集合A中挑选出正确答案回答问题Q。
三、片段提取:给定文章C(其中包含n个词)和问题Q,片段抽取任务通过最大化条件概率P(a|C,Q)来从文章中抽取连续的子序列作为问题的正确答案。
四、自由作答:给定文章C和问题Q,自由作答的正确答案a有时可能不是文章C的子序列,即a⊆C或aØC。自由作答任务通过最大化条件概率P(a|C,Q)来预测回答问题Q的正确答案a。
自由问答是这四个任务中最为有难度,也是工业界最为感兴趣与关注的任务。自由作答任务答案形式非常灵活,能很好的测试对自然语言的理解,与现实应用最为贴近,但是这类任务的数据集构造相对困难,如何有效的评价模型效果有待进行更为深入的研究。
如图1所示,典型的机器阅读理解系统一般包括嵌入编码、特征抽取、文章-问题交互和答案预测四个模块,分述如下:
嵌入编码:这一模块将输入的自然语言形式的文章和问题转化成固定维度的向量,以便机器进行后续处理。早期常用的方法为传统的词表示方法,如独热表示和分布式词向量,近两年由大规模语料库预训练的基于上下文词表示方法也得到了广泛的应用,如ELMo、GPT、Bert等。同时,为了能更好地表示语义句法等信息,上述词向量有时也可以和词性标签、命名实体、问题类型等语言特征结合后进行更细粒度的表示。
特征提取:经由嵌入编码层编码得到的文章和问题的词向量表示接着传递给特征提取模块,来抽取更多的上下文信息。这一模块中常用的神经网络模型有循环神经网络(RNN)、卷积神经网络(CNN)和基于多头自注意力机制的Transformer结构。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科苏州智能计算技术研究院,未经中科苏州智能计算技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110748656.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种铁塔便携吊具
- 下一篇:门限签名方法、装置、设备以及存储介质





