[发明专利]一种面向文本的知识单元关联关系挖掘方法有效
申请号: | 201110312882.1 | 申请日: | 2011-10-15 |
公开(公告)号: | CN102436480A | 公开(公告)日: | 2012-05-02 |
发明(设计)人: | 刘均;郑庆华;叶俊挺 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 朱海临 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 文本 知识 单元 关联 关系 挖掘 方法 | ||
技术领域
本发明涉及一种网络数据的检索方法,特别涉及一种面向文本的知识单元关联关系挖掘方法。
背景技术
随着计算机网络的迅速发展和日益普及,因特网上的信息以指数增长。信息时代带来了海量的数字化文本,日益积累的数据使得信息的获取越来越困难。人们的时间和精力是有限的,面对如此巨大的数字资源,无法从大量数据中迅速而准确地找到有用的信息,因而需要自动化的抽取工具,来帮助人们检索海量数据。申请人经过查新,没有找到面向文本的知识单元关联关系挖掘方法的专利,因而检索了三篇与关系挖掘相关的专利,它们分别是:
1.Relation extraction system[International Publication Number:WO2009/017464A1];
2.Method and a system for semantic relation extraction[Publication Number:US 2009/0019032 A1];
3.一种词关系挖掘方法和装置[申请公布号:CN 102129427 A]。
在专利1中,发明人提出一种将有监督学习和半监督学习相结合的方法,抽取出文本间的关系,在专利2中,发明人提出一种基于概率统计模型抽取出两个词条间的语义关系,在专利3中,发明人提出一种通过计算候选关系、关系频度以及词条的词频计算互信息,根据互信息对关系进行排序,将符合预设阈值的关系作为词条关系输出。上述三种相关专利发明所述方法都需要对所有可能的关系对进行分类,存在计算量大、计算复杂度高的缺点。
发明内容
本发明的目的是提供一种面向文本的知识单元关联关系挖掘方法,通过挖掘文本间的关系、筛选候选知识单元对和知识单元特征抽取的方法,对文本中的知识单元关联关系进行挖掘,从而可以大大减少计算量,降低计算复杂度。所述知识单元是指具有完备知识表达的最小单元。所述知识单元关联关系是指知识单元间内在的语义关系。
为达到以上目的,本发明是采取如下技术方案予以实现的:
一种面向文本的知识单元关联关系挖掘方法,包括如下步骤:
(1)文本关联挖掘:对文本集合进行聚类,找到具有相似主题的文本对,并利用核心术语分布的不对称性,挖掘文本间的线性关联关系;
(2)生成候选知识单元对:利用知识单元关联关系的局部性,产生候选的知识单元对;
(3)特征选择及知识单元关联关系挖掘:基于知识单元对的术语词频、距离和语义类型特征,使用SVM分类器将候选的知识单元对进行二值分类,挖掘知识单元间的关联关系。
其中,步骤(1)所述挖掘文本间的线性关联关系按照如下过程:
1)依据向量空间模型VSM,将文本转换为对应的术语向量;
2)根据欧式距离的定义,计算任意两个术语向量之间的距离;
3)基于术语向量之间的距离,使用AGNES聚类方法对文本集合进行聚类,在AGNES聚类过程中,以下三种情况生成文本对k=(ti,tj):
a.如果文本ti与文本tj的术语向量距离最小,将文本ti和文本tj合并为一个簇;
b.如果文本ti与文本tj的术语向量距离最小,且ti属于簇S中,将文本tj放入簇S中;
c.如果文本ti与文本tj的术语向量距离最小,且ti属于簇S,tj属于簇S′,将簇S和簇S′合并为一个新的簇;
当集合中只存在一个簇,且所有文本都在此簇中,则聚类过程结束;
4)在文本线性关联关系已知的文本集合T中,文本tm线性关联于文本tn,计算其术语分布特征值F(m,n);
术语分布特征值F(m,n)的定义如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110312882.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:疲劳驾驶检测方法
- 下一篇:一种用于规划生产线的方法和装置