[发明专利]一种中文文本知识图谱自动构建方法及系统有效

专利信息
申请号: 201710050095.1 申请日: 2017-01-23
公开(公告)号: CN106844658B 公开(公告)日: 2019-12-13
发明(设计)人: 苏晓恒;万海 申请(专利权)人: 中山大学
主分类号: G06F16/36 分类号: G06F16/36;G06F17/27
代理公司: 44102 广州粤高专利商标代理有限公司 代理人: 林丽明
地址: 510275 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提供的方法能够实现中文文本知识图谱的构建,并且该方法在使用时随着使用次数的增长,其各个领域的文本库、关系库、实体库也逐步得到扩充,构建知识图谱的效果越好。
搜索关键词: 一种 中文 文本 知识 图谱 自动 构建 方法 系统
【主权项】:
1.一种中文文本知识图谱自动构建方法,其特征在于:包括以下步骤:/nS1.从网上百科爬取各个领域的文档,然后按照百科页面的知识组织结构抽取出实体和关系存入相应领域的实体库和关系库中,所述爬取的各个领域的文档也存入相应领域的文本库中;/nS2.若一个文档j需要进行构建知识图谱的操作,则对其执行以下处理;/nS3.对文档j进行分词处理;/nS4.对文档j进行核心词的提取;/nS5.使用TF-IDF的技术对文档j的重要词进行提取;/nS6.确定文档j所属的领域:/nS61.找出文档j的所有词语,然后分别计算它们的TF-IDF值,按照词语的顺序得到文档j的词汇向量表达式;/nS62.使用步骤S61的方法得到各个领域的文档的词汇向量表达式,然后计算文档j的词汇向量表达式与各个领域的文档的词汇向量表达式的余弦值,余弦值最大的文档对应的领域为文档j所属的领域;然后将文档j存入所述领域的文本库内;/nS7.提取文档j中的实体、关系和实体的三元组:/nS71.从文档j中挑选出领域词汇出现的句子作为事务,事务指的是挑选出来的句子中的所有词条的集合;其中所述领域词汇为文档j所属领域的实体库和关系库汇总的词条;/nS72.计算事务中每个词条的支持度,然后将支持度高于阈值的词条看做频繁项;/nS73.计算任意两个频繁项之间的置信度,若两个频繁项之间的置信度高于阈值,则提取两个频繁项作为词对;/nS74.将词对的词、核心词、重要词组成一个词条集合,定位文档j中所有含有该词条集合中词条的句子,然后对这些句子进行指代消解及删除句子中的次要成分,得到提取实体、关系和实体的三元组需要的名词和动词;/nS75.首先找到句子中的动词,然后将句子中动词前面和后面的名词组成一个候选的(名词,动词,名词)三元组,然后利用相似性分析来计算文档j所属领域的关系库中的关系与候选三元组中的动词的相似性,若相似性大于阈值,则将动词放入文档j所属领域的关系库中,同时将候选三元组中的名词放入文档j所属领域的实体库中;此时,候选的(名词,动词,名词)三元组为文档j提取的正式的实体、关系和实体的三元组;/nS76.若步骤S75提取不到实体、关系和实体的三元组,则找到句子中的核心词及另一个名词,然后使用相似性分析来计算文档j所属领域的实体库中的实体与该名词的相似性,若相似性大于阈值,则寻找核心词、名词之间的词语,然后利用相似性分析来计算它与文档j所属领域的关系库中的关系的相似性,若相似性大于阈值,则将该词语放入文档j所属领域的关系库中,而将步骤S76提取的名词放入文档j所属领域的实体库中;此时,获得文档j提取的实体、关系和实体的三元组;/nS8.利用提取的实体、关系和实体的三元组生成文档j的知识图谱。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710050095.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top