[发明专利]结合词向量和自举学习的领域实体上下位关系获取与组织方法有效

专利信息
申请号: 201710484051.X 申请日: 2017-06-23
公开(公告)号: CN107463607B 公开(公告)日: 2020-07-31
发明(设计)人: 余正涛;马晓军;郭剑毅;陈玮;张志坤 申请(专利权)人: 昆明理工大学
主分类号: G06F16/9535 分类号: G06F16/9535;G06F40/289;G06F40/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 650093 云*** 国省代码: 云南;53
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 结合 向量 学习 领域 实体 下位 关系 获取 组织 方法
【权利要求书】:

1.结合词向量和自举学习的领域实体上下位关系获取与组织方法,其特征在于:所述方法的具体步骤如下:

Step1、首先根据自举学习的方式,从旅游领域的文本中获取候选的上下位关系实例;

Step1.1、首先人工编写爬虫程序,从旅游网站和百科词条上爬取旅游领域文本信息;

Step1.2、语料的预处理过程采用开源的工具包Ansj完成,包括分词、词性标注、去停用词和命名实体识别过程;

Step1.3、选择Google的开源工具包word2vec,采用Skip-gram模型对预处理后的语料进行词向量模型训练;

Step1.4、对预处理后的文档进行扫描,筛选出同时含有两个以上领域实体的句子,选取特征上下文;

Step1.5、种子集的获取,即每一种上下文文本在去除停用词和形容词后,剩余的每个词都被转化为单独的词向量,然后进行简单的组合得到特征向量,然后采用三个向量的组合来表示任意关系实例;

Step1.6、从Step1.5中获取上下位关系种子集,采用Single-pass聚类的方法生成上下位关系抽取模式;

Step1.7、当利用Step1.6得到抽取模式以后,采用新关系实例获取的方法进行候选关系实例的获取;

Step2、利用候选的上下位关系实例,人工构建旅游领域知识库,借鉴映射矩阵对候选上下位关系实例进行层级关系组织;

Step2.1、人工构建领域知识库作为映射矩阵的训练数据;

Step2.2、通过对训练数据的聚类和相应的映射训练,判断给定的两个实体是否存在上下位关系来进行层级关系组织;

所述步骤Step2.1的具体步骤为:

Step2.1.1、人工编写爬虫程序,从旅游网站和百科词条上爬取旅游领域文本信息;

Step2.1.2、采用开源的工具包Ansj完成,包括分词、词性标注,统计词频,得到和种子同现频率高的词汇作为领域词汇集;

Step2.1.3、采用互动百科的分类体系作为基础,构建出包含10000个领域实体的旅游领域知识库;

所述步骤Step2.2的具体步骤为:

Step2.2.1、从数据集中随机选择K个聚类质心点,将上下位关系实体对(x,y)根据向量偏移y-x采用K-means聚类方法进行聚类;

Step2.2.2、对于Step2.2.1步骤得到的每一个簇分别学习一个映射使Φk*值最小;

其中,Φk*表示映射矩阵,(x,y)表示上下位关系对,意思是给定实体x和它的上位词y,存在矩阵Φk,使得其中x表示y的下位词,y是x的上位词,Φk表示过渡矩阵;Nk是聚类簇集Ck第k个聚类簇中实体对的数量;

Step2.2.3、从Step2.2.2步骤得到每一类的映射矩阵后,判断新来的词对是否构成上下位关系;

Step2.2.4、采用启发式的规则处理层次结构中冲突问题,当图中出现环的时候,去掉或翻转最弱的边,翻转最弱的边形成一个间接的上下位关系。

2.根据权利要求1所述的结合词向量和自举学习的领域实体上下位关系获取与组织方法,其特征在于:所述步骤Step1.2的具体步骤为:

Step1.2.1、对爬取的网页文本信息进行有效的过滤,去无效字符和网页;

Step1.2.2、对得到的有效网页进行去重、去垃圾信息预处理操作;

Step1.2.3、使用Ansj分词工具对旅游文本进行分词、词性标注、去停用词和命名实体识别的过程。

3.根据权利要求1所述的结合词向量和自举学习的领域实体上下位关系获取与组织方法,其特征在于:所述步骤Step1.4的具体步骤为:

Step1.4.1、以句子为单位对文本进行切分,并进行人工的实体标注;

Step1.4.2、最后对处理过的文档进行扫描,筛选出同时含有两个以上领域实体的句子,选取第一个实体前的词BEF、两个实体间的词BET和第二个实体后的词AFT作为特征上下文。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710484051.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top