[发明专利]一种面向文本的知识单元关联关系挖掘方法有效

申请号：	201110312882.1	申请日：	2011-10-15
公开（公告）号：	CN102436480A	公开（公告）日：	2012-05-02
发明（设计）人：	刘均;郑庆华;叶俊挺	申请（专利权）人：	西安交通大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	西安通大专利代理有限责任公司 61200	代理人：	朱海临
地址：	710049 ***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种面向文本知识单元关联关系挖掘方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种网络数据的检索方法，特别涉及一种面向文本的知识单元关联关系挖掘方法。

背景技术

随着计算机网络的迅速发展和日益普及，因特网上的信息以指数增长。信息时代带来了海量的数字化文本，日益积累的数据使得信息的获取越来越困难。人们的时间和精力是有限的，面对如此巨大的数字资源，无法从大量数据中迅速而准确地找到有用的信息，因而需要自动化的抽取工具，来帮助人们检索海量数据。申请人经过查新，没有找到面向文本的知识单元关联关系挖掘方法的专利，因而检索了三篇与关系挖掘相关的专利，它们分别是：

1.Relation extraction system[International Publication Number：WO2009/017464A1]；

2.Method and a system for semantic relation extraction[Publication Number：US 2009/0019032 A1]；

3.一种词关系挖掘方法和装置[申请公布号：CN 102129427 A]。

在专利1中，发明人提出一种将有监督学习和半监督学习相结合的方法，抽取出文本间的关系，在专利2中，发明人提出一种基于概率统计模型抽取出两个词条间的语义关系，在专利3中，发明人提出一种通过计算候选关系、关系频度以及词条的词频计算互信息，根据互信息对关系进行排序，将符合预设阈值的关系作为词条关系输出。上述三种相关专利发明所述方法都需要对所有可能的关系对进行分类，存在计算量大、计算复杂度高的缺点。

发明内容

本发明的目的是提供一种面向文本的知识单元关联关系挖掘方法，通过挖掘文本间的关系、筛选候选知识单元对和知识单元特征抽取的方法，对文本中的知识单元关联关系进行挖掘，从而可以大大减少计算量，降低计算复杂度。所述知识单元是指具有完备知识表达的最小单元。所述知识单元关联关系是指知识单元间内在的语义关系。

为达到以上目的，本发明是采取如下技术方案予以实现的：

一种面向文本的知识单元关联关系挖掘方法，包括如下步骤：

(1)文本关联挖掘：对文本集合进行聚类，找到具有相似主题的文本对，并利用核心术语分布的不对称性，挖掘文本间的线性关联关系；

(2)生成候选知识单元对：利用知识单元关联关系的局部性，产生候选的知识单元对；

(3)特征选择及知识单元关联关系挖掘：基于知识单元对的术语词频、距离和语义类型特征，使用SVM分类器将候选的知识单元对进行二值分类，挖掘知识单元间的关联关系。

其中，步骤(1)所述挖掘文本间的线性关联关系按照如下过程：

1)依据向量空间模型VSM，将文本转换为对应的术语向量；

2)根据欧式距离的定义，计算任意两个术语向量之间的距离；

3)基于术语向量之间的距离，使用AGNES聚类方法对文本集合进行聚类，在AGNES聚类过程中，以下三种情况生成文本对k＝(t_i，t_j)：

a.如果文本t_i与文本t_j的术语向量距离最小，将文本t_i和文本t_j合并为一个簇；