[发明专利]一种基于数据挖掘的文本搜索方法无效
申请号: | 200710062175.5 | 申请日: | 2007-06-18 |
公开(公告)号: | CN101075251A | 公开(公告)日: | 2007-11-21 |
发明(设计)人: | 陈勇;张佳骥 | 申请(专利权)人: | 中国电子科技集团公司第五十四研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 050081河北省石家*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 挖掘 文本 搜索 方法 | ||
技术领域
本发明涉及计算机技术领域中的一种基于数据挖掘的文本搜索方法,特别可适用于任何语言的文本文档的精确表示、检索、聚类和自动文本摘要等诸多文本智能处理。
背景技术
目前对文本的表示通常采用向量空间模型,即从词汇表中抽取特征词构成一个公共表示空间—向量空间,然后把文档集合中的每一个文档表示在向量空间中。在向量空间模型中,是以单个词为处理对象的。并且,有一个重要的前提:假设词与词之间是相互独立的。在这种设计中,由于是以单个词为处理对象,这样就割裂了语言中词与词之间相互关联关系;同样,词与词之间相互独立这一假设也是不成立的。在现实语言中,词与词之间是相互关联的。因此,基于向量空间模型的文档表示,它具有表示不清,文档间易于混淆等缺点。
发明内容
本发明所要解决的技术问题在于避免上述背景技术中的不足之处而提供一种利用数据挖掘算法充分发现文本中那些相互关联的且与文本中心内容紧密相关的词组,这些词组代表了与文本中心思想相关的概念,通过这些概念词组对文档进行精确表示的一种基于数据挖掘的文本搜索方法。且本发明还具有运算速度快,性能稳定,与文本所用语言无关,适用面广的特点。
本发明所要解决的技术问题由以下技术方案实现,包括步骤:
①利用计算机采用概率统计理论建立领域专用或通用词典;
②基于词典对文本进行分词处理;
③利用数据挖据技术对文档进行分析;
④基于对文档的分析,抽取文档的多层次的词组特征,形成对文档的多精度表示;
⑤基于文档的多精度词组特征表示,根据词组特征间的匹配计算文档之间的相似度;
⑥基于文档间的相似度,直接搜出需要文档,或基于文档间的相似度,利用紧密度分布算法对文档进行聚类搜出需要文档;完成基于数据挖掘文本搜索。
本发明第②步中所述的分词处理包括断词标注和词性标注。
本发明与背景技术相比具有以下有优点:
1.本发明利用数据挖掘技术对文本进行分析抽取文本的概念词组,对文本进行多层次描述,比传统方法抽取的单个词的特征更能反映文本的内容实质。
2.传统的向量空间模型试图用一个向量空间表示文档集合中所有的文档,由于向量空间所含特征维数是受到限制的。因此,向量空间模型的表示能力是有限的。随着文档集合中文档数量的增加,向量空间模型的这种局限性就越明显。因此,向量空间模型不适用于动态增加的文档集合。但现实生活中,大部分文档集合是动态增加的。本发明能对每个文档单独处理,抽取其特征,从而避免了上述缺点,适合于动态文档集合。
3.本发明还具有运算速度快,性能稳定,与文本所用语言无关,适用面广等优点。
附图说明
图1是本发明基于数据挖掘的文本检索系统的工作流程图。图1的左侧表示对文档集合进行建模的过程;图1的右侧表示检索过程。
具体实施方式
参照图1,本发明包括步骤如下:
①利用计算机采用概率统计理论建立领域专用或通用词典。
②基于词典对文本进行分词处理。本发明分词处理包括断词标注和词性标注。实施例分词处理是基于领域专用词典或通用词典对中文文本进行断词和词性标注处理。对西方语言文本进行词性标注处理。如图1中分词处理模块所示。实施例分词处理结果需经停用词、非关键词过滤处理,即把与文本内容不相关的词,如介词、连词等从文本中删除。这样不会损失文本的原有信息,且可以减少运算量。如图1中停用词过滤非关键词过滤模块所示。
③利用数据挖据技术对文档进行分析。实施例利用数据挖掘技术抽取关键概念词组,利用数据挖掘技术对文档进行分析以获得文档多个层次上的特征。如图1中利用数据挖掘技术抽取关键概念词组模块所示。
④基于对文档的分析,抽取文档的多层次的词组特征,形成对文档的多精度表示。实施例利用概念词组对文档进行多精度表示。如图1中文档多精度表示模块所示。
⑤基于文档的多精度词组特征表示,根据词组特征间的匹配计算文档之间的相似度。实施例计算相似度时,考虑了命名实体在文本中的作用,对发生在命名实体上的匹配给予更高权重。
⑥基于文档间的相似度,直接搜出需要文档,或基于文档间的相似度,利用紧密度分布算法对文档进行聚类搜出需要文档。实施例基于文档特征对文档进行聚类处理,形成各个聚类的类中心表示。在建模阶段进行聚类可以减少检索阶段的运算时间。如图1中聚类模块所示。
本发明具体的检索过程如下:
首先对用户提供的样本文档进行分词、去除停用词等处理,然后,利用数据挖掘技术抽取文本的多层次特征,基于这些特征计算样本文档与各个聚类的相似度,找出相似的聚类。最后,计算样本文档与相似聚类内的每个文档间的相似度,按相似度由大到小排序形成检索结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第五十四研究所,未经中国电子科技集团公司第五十四研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710062175.5/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置