[发明专利]一种基于集成学习和词句综合信息的文本蕴涵识别方法有效

专利信息
申请号: 201710311135.3 申请日: 2017-05-05
公开(公告)号: CN107133212B 公开(公告)日: 2020-06-26
发明(设计)人: 魏薇;万小军 申请(专利权)人: 北京大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/211;G06F40/295;G06F40/289;G06F40/253
代理公司: 北京万象新悦知识产权代理有限公司 11360 代理人: 苏爱华
地址: 100871*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 集成 学习 词句 综合信息 文本 蕴涵 识别 方法
【权利要求书】:

1.一种基于集成学习和词句综合信息的文本蕴涵识别方法,其特征在于,该方法通过结合词汇信息和句法信息抽取综合特征,提高对数据的拟合程度,并通过集成学习提高分类稳定性,具体包括如下步骤:

(1)对输入的文本句进行预处理和分词纠正;

(2)进行中文数字和时间表达的一致性转化;

(3)提取相似度、词汇、句法以及基于综合信息的特征;具体做法如下:

使用向量表示相似度特征、词汇特征、句法特征;

时间、数字、人名、地名、机构名、方位词在句中表达了关键信息,如果假设文本中出现的以上信息在推理文本中找不到推理来源,则两个句子倾向于不具有蕴涵关系,时间、数字、方位通过词性标注信息筛选,实体通过命名实体识别筛选,在时间匹配中,考虑时间范围的匹配,在实体、方位的匹配中,考虑同义词的匹配,对于否定词,用t1和t2中否定词个数之差的绝对值作为特征的值,对于极端词,极端词指程度级别较高的词,对于t2中出现的极端词,在t1中寻找推理来源,对于同义词,反义词,上位词,下位词,对t2中的词在t1中查找匹配,同义匹配、反义匹配、上位匹配、下位匹配的个数作为特征的值;

对于主谓,动宾,介宾,定中,状中关系,用t2中的句法依赖关系对,在t1中查找匹配;对于主谓-动宾关系,用t2中的主谓关系,在t1中查找相应的动宾关系,或对于t2中的动宾关系,在t1中查找相应的主谓关系;

上述的特征分别单独考虑了相似度信息,词汇信息和句法信息,由于一些词汇信息,需要借助句法信息的约束才能更好的区分正负例,加入一组基于词汇-句法综合信息的特征,用四维向量表示:[主语上位,宾语上位,主语下位,宾语下位],以主语上位为例:对于t2中的词w2i,它是t1中w1j的上位词,且在依存句法中是主语角色,则是一个主语上位,特征的值为t2中这样词的个数;

(4)基于集成学习技术的训练和基于投票的分类。

2.根据权利要求1所述的基于集成学习和词句综合信息的文本蕴涵识别方法,其特征在于,对输入的文本句进行预处理和分词纠正,其具体做法如下:

对推理文本(t1)和假设文本(t2)进行预处理,主要步骤包括分词,词性标注,命名实体识别,依存句法分析,为了提高对推理文本和假设文本处理的一致性,在分词步骤之后,进行自动的分词纠正,如果推理文本和假设文本中包含相同字串,但只切分方式不同,则进行修正。

3.根据权利要求1所述的基于集成学习和词句综合信息的文本蕴涵识别方法,其特征在于,进行中文数字和时间表达的一致性转化,具体做法如下:

中文中数字和时间有多种表达方式,为了后续特征提取中的匹配工作,首先进行数字和时间的表示方法统一化,数字表示形式包括:汉字、阿拉伯数字、百分数、小数、分数,中文时间表示有多种形式,分别选定一种表示方法,将数字和时间进行统一的表示方法转换。

4.根据权利要求1所述的基于集成学习和词句综合信息的文本蕴涵识别方法,其特征在于,基于集成学习技术的训练和基于投票的分类,具体做法如下:

使用SVM分类器,采用RBF核函数,为了分类的稳定性和预测的准确性,采用集成学习技术,集成学习的思路是在对新的实例进行分类的时候,把若干个单个分类器集成起来,通过对多个分类器的分类结果进行某种组合来决定最终的分类,以取得比单个分类器更好的性能,如果把单个分类器比作一个决策者的话,集成学习的方法就相当于多个决策者共同进行一项决策,具体来说使用Bagging策略,每次从训练样例中随机抽样,训练出一个分类器,重复若干次,构造出若干个不同的分类器,对于一个新的要预测的实例,使用上述若干分类器同时分类,最后投票得出最终分类结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710311135.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top