[发明专利]一种基于自训练与噪声模型的因果事件抽取方法有效

申请号：	202010397785.6	申请日：	2020-05-12
公开（公告）号：	CN111651983B	公开（公告）日：	2021-06-18
发明（设计）人：	丁效;刘挺;秦兵;廖阔	申请（专利权）人：	哈尔滨工业大学
主分类号：	G06F40/284	分类号：	G06F40/284;G06N3/04;G06N3/08
代理公司：	哈尔滨市松花江专利商标事务所 23109	代理人：	时起磊
地址：	150001 黑龙***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于训练噪声模型因果事件抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种基于自训练与噪声模型的因果事件抽取方法，本发明涉及因果事件抽取的方法。本发明的目的是解决现有基于深度学习模型的因果事件抽取方法在有标注数据不足的领域或场景中效果有限的问题。过程为：一、收集已标注的目标领域文本；二、计算一个向量表示；三、计算出概率最大的标签序列；四、训练三中的模型，并对二中的模型进行微调；五、得到大量自标注数据；六、为每个单词计算一个向量表示，计算单词序列生成每个可能的标签序列的概率；七、计算自标注文本中每个单词的噪声矩阵；八、得到由单词序列生成自标注标签序列的概率；九、使用一中有标注数据与五中自标注数据共同训练二、三、六、七中的整体模型。本发明用于因果事件抽取领域。

技术领域

本发明涉及基于自训练与噪声模型进行因果事件抽取的方法。

背景技术

近年来，深度学习方法在各项具有挑战性的自然语言处理任务上取得了令人印象深刻的结果，如机器翻译(Kyunghyun Cho,Bart VanCaglar Gulcehre,Dzmitry Bahdanau,Fethi Bougares,Holger Schwenk,and YoshuaBengio.2014.Learning phrase representations using RNN encoder-decoder forstatistical machine translation.In Proceedings of the 2014 Conference onEmpirical Methods in Natural Language Processing(EMNLP).)与阅读理解(DanqiChen,Adam Fisch,Jason Weston,and Antoine Bordes.2017.Reading wikipedia toanswer open-domain questions.In Proceedings of the 55th Annual Meeting of theAssociation for Computational Linguistics,pages 1870–1879.)。深度学习方法使用深度神经网络自动学习输入与输出数据间的函数关系，与传统机器学习方法相比，深度神经网络可以自动为最终任务学习出有效的特征，而无需依赖特征工程，从而使模型的学习过程能够以端到端的方式进行，大大提高了其实用性。然而，端到端的深度学习模型由于结构复杂、参数量大，往往需要大量有标注的数据才能较好地训练。获取标注数据需要人类专家的参与，其代价是十分昂贵的，限制了深度学习方法在低资源语言、领域上的应用。

另一方面，无标注的数据往往很容易获取，即使是在有标注数据较少的语言和领域上。半监督学习方法提出同时使用大量无标注数据与少量有标注数据训练模型，这一方法仅需较少的人力进行数据标注，并且往往能够取得比仅使用有标注数据更好的结果，因此在理论和实践上都广受关注。在半监督学习方法中，自训练(Self-Training)(Yarowsky,D.(1995).Unsupervised word sense disambiguation rivaling supervisedmethods.Proceedings of the 33rd Annual Meeting of the Association forComputational Linguistics(pp.189–196).)是一种实用的包装方法。该方法首先在少量有标注的种子数据上训练模型，之后使用模型对无标注数据进行标注，构造自标注数据，并筛选出置信度较高的自标注数据用来进一步训练模型。该方法对模型的结构与任务的形式不做任何假设，因此可以很好地与结构复杂的深度神经网络结合，并应用于各种任务上。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学，未经哈尔滨工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010397785.6/2.html，转载请声明来源钻瓜专利网。

上一篇：睡眠灯的控制方法、装置、睡眠灯和存储介质
下一篇：一种基于无人机的雷达模拟器装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于自训练与噪声模型的因果事件抽取方法有效

专利文献下载