[发明专利]一种基于假设性半监督学习的开放领域问答方法有效
| 申请号: | 201810253156.9 | 申请日: | 2018-03-26 |
| 公开(公告)号: | CN108717413B | 公开(公告)日: | 2021-10-08 |
| 发明(设计)人: | 潘博远;蔡登;姜兴华;陈哲乾;赵洲;何晓飞 | 申请(专利权)人: | 浙江大学 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06N3/08 |
| 代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 马士林 |
| 地址: | 310013 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 假设 监督 学习 开放 领域 问答 方法 | ||
本发明公开了一种基于假设性半监督学习的开放领域问答方法,包括:(1)使用信息检索技术从语料库中将与问题相关的文章抽取出来;(2)假设给定问答训练集自带的文章是唯一的正标签,从语料库中抽取的所有文章都是负标签;(3)构建深度学习模型,通过训练一个文章打分器学习正标签的特征,训练一个阅读器从文章中选择正确答案;(4)进行文章相关性排序,将相关性高的前n个文章送入打分器内打分并根据分数重新标签;(5)重复步骤3和步骤4,直到模型收敛;(6)模型训练完毕,进行开放领域问答应用。利用本发明可以在不依赖额外人工标注和外部知识的情况下大幅提升现有开放领域问答系统的文章抽取质量和答案的准确率。
技术领域
本发明涉及自然语言处理领域,具体涉及一种基于假设性半监督学习的开放领域问答方法。
背景技术
近年来,开放领域问答问题成为了自然语言处理中十分热门和棘手的问题。在这个任务中,给定一个语料库和一个问题,算法系统将从语料库中返回一个答案。它和机器阅读理解最大的不同就是它除了根据文章回答问题外还增加了从语料库寻找文章的过程。开放领域问答系统的应用十分广泛,因为传统的搜索引擎只能满足很小部分人需求并且返回的答案大部分只是网页链接而不是一个具体的答案。一个能从大量语料库中抽取文章并给出理想答案的问答系统能够被广泛应用到例如体育、法律、医学等领域。
由于知识库技术的发展,早期的开放领域问答任务都用知识库来作为知识来源。然而,人们也随之发现建造一个新知识库是十分耗时耗力的,并且知识库单一的结构也使很多问题得不到令人满意的答案。最近,由于机器阅读理解技术的发展,由原始文档组成的语料库顶替知识库进入了人们的视野。在2017年的国际自然语言处理顶级会议AnnualMeeting of the Association for Computational Linguistics中,论文《ReadingWikipedia to Answer Open-Domain Questions》的第3页到第5页公开了一种叫DrQA的开放领域问答方法,它在几个公开数据集上取得了可观的效果并受到了业内的好评和广泛应用。然而,这样的算法是在抽取文档这一步使用简单的信息检索系统然后直接将结果不加区分地送入阅读理解步骤中,所以过于简单并且没有语义分析,这将导致很多同义句的问题失去了能够匹配到包含答案的文章的机会。
发明内容
本发明提供了一种基于假设性半监督学习的开放领域问答方法,同时训练一个文章打分器和一个阅读器,可以在不依赖额外人工标注和外部知识的情况下大幅提升现有开放领域问答系统的文章抽取质量和最终答案的准确率。
一种基于假设性半监督学习的开放领域问答方法,包括以下步骤:
(1)使用信息检索技术从语料库中将与问题相关的文章抽取出来;
(2)假设给定问答训练集自带的文章是唯一的正标签,从语料库中抽取的所有文章都是负标签;
(3)构建深度学习模型,通过训练一个文章打分器来学习正标签文章的特征,同时训练一个阅读器以从文章中选择正确答案;
(4)进行文章相关性排序,将相关性高的前n个文章送入打分器内打分并根据分数重新标签;
(5)重复步骤3和步骤4,直到整个深度学习模型收敛;
(6)模型训练完毕,进行开放领域问答应用。
本发明将问答数据集中每个问题给定的文章和从语料库中抽取的文章混在一起,并假设只有问答数据集的文章是正标签,其余都是负的。同时训练一个文章打分器和一个阅读器,通过不断优化文章打分器来学习正标签文章的特征,希望能够对类似的文章打高分。在随后的训练步骤中不断地选一些相关度很高的抽取出来的文章进行重新标注,以增强正标签文章的多样性和整个算法的鲁棒性。整个算法以最大化正确答案的概率和打分系统对正标签的分数为目标来优化每个步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810253156.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于中文分词的中文校对纠错方法及系统
- 下一篇:资源推荐方法及装置





