[发明专利]一种基于集成学习和词句综合信息的文本蕴涵识别方法有效

专利信息
申请号: 201710311135.3 申请日: 2017-05-05
公开(公告)号: CN107133212B 公开(公告)日: 2020-06-26
发明(设计)人: 魏薇;万小军 申请(专利权)人: 北京大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/211;G06F40/295;G06F40/289;G06F40/253
代理公司: 北京万象新悦知识产权代理有限公司 11360 代理人: 苏爱华
地址: 100871*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 集成 学习 词句 综合信息 文本 蕴涵 识别 方法
【说明书】:

发明公开了一种基于集成学习和词句综合信息的文本蕴涵识别方法,涉及语言文字处理领域。目前的中文文本蕴涵识别系统主要基于词汇特征、句法特征、知识库、人工定义的规则等,然而词汇、句法信息作为独立特征训练出的模型对数据的拟合度过低,规则、知识库覆盖范围有限。本发明提出加入综合词汇和句法信息的特征来训练分类器,并利用集成学习技术,有效提高文本蕴涵识别的准确性。其包括如下步骤:数据预处理;一致性转化;特征提取;集成学习训练;投票决策分类。本发明适用于各领域句子间蕴涵关系的识别。

技术领域

本发明涉及语言文字处理领域,特别涉及一种基于集成学习和词句综合信息的文本蕴涵自动识别方法。

背景技术

文本蕴涵关系被定义为两文本段之间的定向关系,根据人类共同的语言理解和共同的背景知识,由一个文本所蕴涵的内容可以推断另一个文本很可能是正确的。文本蕴涵识别技术具有极强的应用前景,信息抽取、问答系统、文档摘要和机器翻译等领域都与之有密切联系。文本蕴涵识别评测自2005年以来已经连续举办了11届。文本蕴涵识别评测的开展吸引了大量研究机构的参加,推动了文本蕴涵的研究和发展。自2005年来,关于文本蕴涵识别的优秀论文已陆续发表在国际重要会议和期刊上。

由于文本蕴涵识别在自然语言处理领域的基础性地位,已有多个研究单位发布了针对英文的文本蕴涵识别系统,例如意大利威尼斯大学的VENSES,美国伊利诺大学香槟分校的Entailment Demo,日本国立情报学研究所的TIFMO等。国内学术界和工业界则少有针对中文文本蕴涵识别的突破性研究,也很少有相关学术成果发表在重要学术会议和期刊上。

目前的文本蕴涵识别方法主要分为以下几种:基于文本相似度的方法、基于知识库的方法、基于规则的方法,以及基于机器学习的方法。基于文本相似度的方法认为两个文本的相似度越高,文本间存在蕴涵关系的可能性越大,这种方法思想过于简单,忽视了词语间的语义关系,丢失了文本蕴涵关系的方向性,性能一般;基于知识库的方法依赖于基于认知语言学的词典,例如英文的WordNet、中文知网等,由于知识库主要是专业人员手动构建的,词汇之间的语义关系质量较高,信息比较准确,但是知识库资源,尤其是中文资源有限,无法解决中文词语中存在的复杂的语义关系;基于规则的方法主要是设定一系列规则,当满足某一规则或一组规则时得出蕴涵或非蕴涵的结论,对符合规则的实例可以给出准确的判断,但是由于语言表达的多样性,很难用规则覆盖语言中存在的各种现象。本发明主要使用机器学习方法,目前基于机器学习的方法由于所选择的特征比较简单,导致对数据的拟合程度不足,另外由于训练数据较少,模型结果不够稳定。为了克服这些问题,本发明提出抽取综合词汇和句法信息的特征,从而提高拟合效果,并且利用集成学习中的Bagging技术提高模型稳定性,使文本蕴涵识别准确性得以提高。

发明内容

针对当前机器学习方法在文本蕴涵识别任务中的缺陷,本发明提供一种基于集成学习和词句综合信息的文本蕴涵识别方法,该方法通过结合词汇信息和句法信息抽取综合特征,提高对数据的拟合程度,为避免训练数据不足影响模型稳定性,该方法采用集成学习中的Bagging技术进行模型训练。

本发明提出的一种基于集成学习和词句综合信息的文本蕴涵识别方法,包括如下步骤:

(1)对输入的文本句进行预处理和分词纠正;

(2)进行中文数字和时间表达的一致性转化;

(3)提取相似度、词汇、句法以及基于综合信息的特征;

(4)基于集成学习技术的训练和基于投票的分类:

进一步,对输入的文本句进行预处理和分词纠正:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710311135.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top